統計分析入門

量と統計の話

■ 量は概念的把握の基礎!!
 かの哲学者カントは、「現象界の事物はこれを概念的に捉えようとすれば量的に捉えざるを得ない、また量的に事物を捉えようとすれば単一性か多数性か全体性かのいずれかのカテゴリーによって捉えざるを得ない」とカテゴリー論の中で述べていますが、これは例えば日本人は勤勉だという場合、日本人全てがそうなのか、一部の人がそうなのか、それともある日本人だけがそうなのかという事で、量的にはこの3つのカテゴリー以外の捉え方はあり得ないとしています。
 ちなみにカントのいうカテゴリーとは、現象界を概念的に把握しようとする場合、必然的にこれによらざるを得ないという思惟形式の事で、以下の12のカテゴリーを設けております。

分量 ・単一性 ・多数性 ・全体性
性質 ・実在性 ・否定性 ・制限性
関係 ・属性及び自在性 ・原因及び結果 ・相互性
様相 ・可能性/不可能性 ・存在性/非存在性 ・必然性/偶然性
 このように量というのは事物を把握する上で基礎となる思惟形式な訳ですが、実は私達は普段の生活の中でも、量を基準にいろいろ物事を判断しています。
 「○○さんは身長が180センチ以上あるみたい。随分大きい人なんだ」とか「××さんは年収が5千万円位あるらしい。金持ちなんだ」とか、そんな話題を友人同士で取り交わす事は珍しくありませんし、またあの会社は売上が5兆円だとか、利益が1兆円あるとかの記事を目にすると、その数値だけで「あの会社凄い」と評価してしまいます。昼食のランチが1500円なら随分高級なランチだと思いますし、300円の豚カツなら安いなと感じます。つまりこれもそれも量でもって対象を、背が高い人、金持ち、凄い会社、高級ランチなどと、概念的に把握している訳です。
■ 量は質に転化する!!
 ところで先に述べた、背が高い人、金持ち、凄い会社、高級ランチなどの概念は、質と置きかえる事も可能です。よく対立的に語られる事の多い量と質という問題ですが、弁証法の「量から質への転化」を待つまでもなく、1500円のランチ→高級ランチの例の如く、量がある水準を超えるとある概念(=質)を持つようになるという意味で、実は裏腹の関係にあるのです。この辺りの事をもう少し分かりやすく考えてみましょう。
 年収100万円は日本では多分貧乏人でしょう。年収100万円という量により、人は貧乏人という概念で括られる存在になります。そうなるとどういう事になるかというと、好きな食べ物もろくに食えなくなったり、それなりの衣服で身を飾る事も、もちろん旅行に行ったり人と飲食を共にする社交的楽しみもなくなります。つまり人生がつまらくなる訳です。人生がつまらくなると、前向きな姿勢ではつらつとした行き方も難しくなるかも知れませんし、時に憂鬱になり滅入る事もあるかも知れません。
 片や年収5000万円は金持ちでしょう。そうなると、高級車も乗れるし、いい家にも住めます。また好きなリゾートに旅行する事も可能だし、いい衣服を身に着け高級レストランでディナーを楽しむ事も出来ます。それだけではなく、人の羨望を受け、やがてそれが自信につながり威風堂々とした人生を謳歌出来るかも知れません。
 これは100万円とか5000万円とかいう量が、人のライフスタイルや精神を規定する事につながる事があるという例ですが、このように、時に人の人生そのものに重大な影響を与える事があるという意味でも、量というのは事物を把握する上で基礎となる思惟形式なのです。
■ 統計という事
 ところである人が金持ちか貧乏なのかという事は、全ての人の所得がどこかに公表されている訳ではありませんので分かりません。ある人が貧乏なのか金持ちなのかを判断するためには、その人の所得を調べたり聞いたりする必要が出てきます。これが調査いう事になる訳ですが、ただある特定の人の所得が分かったところで、ある1つの事実がデータとして捉えられたという事だけで、実際はあまり意味はありません。
 まあ所得を例にすると何かと語弊がありそうな気がするので、ここからは身長を例に話を進めたいと思いますが、仮にある集団に属するある人の身長を調べたところ、その人の身長が160センチである事が分かったとします。でもこれだけではその人がその集団の中で大きい人なのか小さい人なのかという事は分かりません。つまりその人を概念的に把握する事につながらない訳です。ですから、ある人が大きい人なのか小さい人なのかを判断するためには、その人が属する社会や集団の出来るだけ多くの人の身長データを揃える必要があります。これが統計という事です。
 仮に100人の人がいる集団のそれぞれの人の身長データが揃ったとして、1人が180センチ、4人が170センチ、50人が160センチ、40人が150センチ、5人が140センチだとしたら、明らかに180センチの人は大きい人で、170センチの人もまあ大きな人と言っていいでしょう、そして140センチの人は小さい人という事になります。このように多くの身長データを揃える事で、初めてある身長が大きいのか小さいのかといういう判断が出来る訳です。このように統計は、事物の判断は全からく相対的なものであるという前提で成り立つています。つまりこの棒は長いという場合、こちらにある棒に比べると長いという事であり、長い棒そのものなど存在しないという前提です。
 ところでこの身長統計からもう1つ、この集団が、160センチの人が最も多く180センチの人は1人しかいない集団である事が分かります。この事からこの集団が身長160センチの人の多い集団であるという特性が明らかになります。つまり統計を見る事により、ある人がその集団の中で大きい人なのか小さい人なのかという事と、その集団の身長上の特性がどのようなものなのかという、2つの事が明らかになる訳です。特に集団の特性を明らかにする事は統計的に極めて重要な事です。というのは、ある集団と別の集団を比べた場合、どこがどう違うのか判断する手段として通常統計は利用される事が多いためです。
■ 母集団という事
 先の身長の例で言えば、その結果はある特定の集団なり社会なりの身長統計を見た場合そういう事が言えるという事で、それが違う社会であった場合違う結果になるかも知れません。別の例えで言えば、一番高い山といった場合、日本では富士山ですが世界ではエベレストで、一番高い山という概念は条件により変わってきます。つまり概念というのは、○○において、××の場合、というような条件の基に把握されるのです。このようなデータをとる対象とした、○○において××の場合などに該当する集団なり社会なりを、統計では母集団と呼んでいます。
 通常この母集団は、男性とか女性とか、20代とか50代とか、関東とか関西とか、あるいは日本とアメリカとか、いわゆる属性と呼ばれるものを対象とする事が一般的で、身長においても、男性の身長と女性の身長はどう違うのかとか、日本人とアメリカ人の身長はどう違うのかとかいう見方で比較される事が多い訳です。仮に日本人とアメリカ人の身長を比較した場合、まあアメリカ人の方が身長が高いと思われていますし、実際そうなのですが、でも多分にこれは、通常街中で見かける西欧人を見ていて「大きいな」と感じる印象からの連想である事が多く、実際日本人とアメリカ人の身長統計を比べて判断をしている人は少ない筈です。
 実際の統計数値をみれば、アメリカ人にも身長150センチの人がそれなりにいる筈ですし、日本人にも180センチの人が一定数はいる筈です。日本人にもアメリカ人にも、どんな身長の人もいる筈なのです。問題なのはどの身長の人がどれだけいるかという偏りの違いだけの話なのです。つまりどの身長の人が多くどの身長の人が少ないかが違っているだけなのです。でもここで重要なのは、ある身長の人が何人いたかという事ではなく、何割いたかという事です。
 これは分かりやすく考えるために理論上の例として挙げるだけの話ですが、仮に日本人と中国人の身長別の人数を調べてところ、150センチの人が1千万人、160センチの人が2千万人、170センチの人が3千万人、180センチの人が1千万人と同じ数だけいたとしら、日本人の身長も中国人の身長も同じという事になるのかというと、これは違います。何故なら日本の人口はおよそ1億人、中国の人口はおよそ6億人で、先の述べた母集団としての量がまるで異なる訳です。そのためその割合は大きく変わってきます。つまり1億人のうちの1千万人は10%ですが、6億人のうちの1千万人は1,7%で、両者の間には大きな隔たりがあります。つまり統計的比較では、母集団の数というものが大きく影響してくる訳です。
■ 統計の意味!!
 よく定量調査とか定性調査とかいう言葉がありますが、通常統計的の処理し、統計的に判断する調査を定量調査といいますが、まあ加減乗除の可能なデータを扱うのが定量調査といっていいと思います。そういう意味では定量調査と統計調査は同義語と考えていいと思いますが、これは加減乗除が可能なデータを扱うという事ですから、これはまあ数値を扱うという事になります。
 ところで数値の持つ価値はどこにあるかというと、まあ普遍性があるとい点にあるでしょう。先の例に挙げた身長でいえば、中国でもインドネシアでもロシアでもフランスでも、180センチは180センチで、その意味は不動です。例えば食べ物の場合、中国人の好きな食べ物とロシア人の好きな食べ物は異なりますが、数値はそういう事がありません。普遍性があるという事で、1+1=2の如く、解釈に人の主観や心情の入る事のない客観性をもたらし、また加減乗除が出来るという事で様々な集計処理が可能になります。
 でも定量調査にも限界はあります。人の心理の機微のようなものを探るとか、人が固有に持っている意見のようなものを把握するのが困難です。その難点を埋めるため定性調査と称されるものが必要になってきます。その代表例がグループインタビューとかデプスインタビューとかの調査手法になりますが、この事はここでは触れない事とします。
■ 統計調査をする時!!
 ところで統計調査を行う場合、どういう事を明らかにするため、誰を対象に行うのかという前提が立てられる筈ですが、このどういう事を明らかにするかという部分は通常アンケートの立案という形で行われる筈です。
 アンケートの立案というのは実は結構難しい問題で、まず明らかにすべきテーマをしっかり把握し、そのテーマを解明するためには何を聞いたらいいのかを考える事からスタートする必要があります。要は何を聞いたら何が分かるのかという事を常に頭に置きながら作業を進めるという事が必要な訳です。これはインタビューでも同じですが、また同じような質問でも聞き方の文章的言いまわしで、回答内容が微妙に変わってくるという問題もあります。
 次ぎに誰を対象に行うかという問題ですが、一般的には、化粧品の調査を行うのに男性を母集団に設定してしまうのは間違いでしょうし、薬の調査に薬を利用した事のない人を対象に選んでしまう事も間違いでしょう。でも同じ薬の調査であっても、認知率をテーマとしているような場合、利用した事のない層が対象に入ってきてもおかしくはない筈ですし、むしろそうする必要があります。このように同じ商品を対象とした調査であっても、明らかにすべきテーマにより、対象者の設定は異なってきます。つまり明らかにすべきテーマがベースにあり、アンケートの立案も母集団の設定も進んでいくという事です。
■ 代表値という事!!
 先に統計は総べからく相対的なものだという話を述べましたが、今まで挙げた身長の例に話を戻すと、仮に日本、中国、アメリカ、フランスの4ケ国の身長統計をとり、集計データを見たとしても、数値の分布表だけでは、その違いが明確にならない筈です。そこで登場するのが代表値という値です。これは文字通り数値の分布を1つの値で代表させてしまおうという統計的手法で、この代表に平均値があります。
 この平均値でみると、例えば日本165センチ、中国168センチ、アメリカ178センチ、ロシア174センチとか、単純に差の把握が可能になります。