統計学用語集の第1弾に引き続き、統計学用語集の第2弾です。このブログを読んだり、統計学の勉強をしたりするに当たって、理解しておいた方がいいよな~って用語をまとめていきます。
今回説明したのは「確率変数」「母集団」「母数」「母平均」「母分散」「標本」「変量」「標準偏差」という8つをタイトル通り「あれ」と対応させながら説明しておりますので、よろしくお願いします~。
確率変数
試行を行って初めて具体的な数値が決まるような変数のことです。
中学校で一次関数を習ったかと思います。そのときに、xとyっていう変数が出てきましたよね。ここで出てきた「変数」って概念の統計版だと思ってもらえれば分かりやすいかと思います。xはどんな数字に変えても良くて、yはそのxに対して一つの数値が決まってしまうので、人が勝手に決めることはできないっていう風に習ったかと思います。
同じように、人が直接的に決められるのは試行をするかしないかで、確率変数を直接変化させることはできません。あくまで、思考の結果として人間が間接的に変化させられるのが確率変数ということになります。なので、xを原因、yを結果と考えると、試行(原因)がxに、確率変数(結果)がyに対応することになります。
ただ、一次関数のときとは違って、人間が決められる原因は数値ではなく、試行をするかしないかで、結果となる変数は確率的に決まってしまうって所です。確率的に決まる変数ってことで確率変数って名前が付いてるって考えたら覚えやすいかも…?
確率変数である変数の例を挙げてみます。例えば「サイコロを振る」っていう試行を考えると、「サイコロの出目」ってのが確率変数になります。出目はサイコロを振る前から決まってるものではありません。そして、人間が直接決めることはできません。人間が決められるのはサイコロを振るか振らないかの2つで、その結果である「サイコロの出目」は人間が決めることはできません(普通は)。なので、サイコロの出目は確率変数として考えられます。
一応もう一つ例を。ある母集団からある一定数の標本を抽出したとします。そのとき、例えば「年収」や「子供がいるかいないか」というのはいずれも抽出をして初めて分かる数値なので確率変数になります。
逆に、確率変数でない例も挙げておきます。例えば、「ある母集団から抽出する標本数」ってのは人間が勝手に決めることができるので、確率変数にはなりません。一次関数でいう所のxに対応した概念になります。人間が勝手に決められる変数になるわけですな。
母集団
まずは、言葉の意味を。「母集団」ってのは、調査の対象となる集団全体のことです。まぁ、調査の対象をどう考えているかによって、同じ集団であっても母集団になったりならなかったりするんですが、それは後に挙げる例のところで説明します。
まずは、母集団を一次関数と対応させた説明から。
一次関数では、xの値が色々と変化すると、yの値がどうなるかってのを見てましたよね。で、xの値すべてに対してyの値を対応させると直線になりました。ここで、xとyそれぞれの名前を思い出していただきたいのですが、xは定義域、yは値域と呼ぶのでした。それぞれの意味は、「定義域」が、xを動かす範囲、つまりはxを限定したときの範囲のこと。「値域」が、xが限定されて初めて決まる範囲で、yの取り得る値の範囲のことでした。
ここまで思い出してもらったところで母集団の話に戻ります。
母集団は一次関数でいう所の、x全体に対応した概念になります(標本はxの定義域になります)。中学校で習ったとき、一次関数のxは何も約束が無ければグラフの端から端として決められていましたけど、定義域が作られると、考える範囲も限定されましたよね。
この範囲を限定する前のx、つまりは、数直線上でxが取り得る値すべて(実数全体)が母集団に対応します。限定した後のxの範囲は標本に対応します。母集団という全体から標本という限定した範囲を抽出するというのは、一次関数でいう所のxの定義域を作るっていうのと対応するってことですな。
例を挙げておきます。世界の人間全体とか日本人全体、日本人の学生全体ってのは母集団になり得ます。なり得ますってのは、何を調査しようとしてるかによって、考える母集団が違ってくるからなんですな。
例えば、世界のうつ病発症率を調査したいとなれば、世界全体を母集団として設定して、標本には様々な国の人のデータが入ってるべきです。逆に、日本人の平均寿命を見たいとすると、母集団としては日本人全体を設定するのが適切なわけです。日本人のデータを見るのに、サウジアラビアとかペルーの人とかが混じってたらおかしなことになりますもんね。
こういう風に、最もふさわしいと考えられる調査対象全体のことを母集団と呼ぶわけですな。
母数
日常生活で使う「母数」とは、ちょっと意味が違っています。統計学でいう所の「母数」は、母集団の性質を表す数値のことです。決して、全体の数のことではないのでご注意を。(ちなみに、中の人はよく間違えます。気を付けねば…!)
こちらも一次関数と対応させてみましょう。ただ、一次関数にはない言葉と対応させることになるので、微妙なところはありますが。(少なくとも、中の人は「母数」に対応した言葉を知りません。が、 概念としては一応考えられるので、まぁいいかなと。)
母数ってのは、言ってみれば母集団を特徴づける固有のパラメータになります。なので、一次関数でいう所の切片や傾きっての「総称」が母数に対応します。なので、もしも切片とか傾きみたいなパラメータ全体を表す言葉があれば、その言葉が母数と対応するってことですな。
一次関数の性質(例えば、右肩上がり、右肩下がり、xが0のとき、yはどんな数値になるのかみたいな)を表しているのは、切片なり傾きなりといった固有のパラメータだったわけです。
同じように、母集団にもその特徴を表す固有のパラメータがあって、それを母平均なり母分散なりと呼ぶわけです。で、それら全体を一括して呼ぶ言葉が「母数」なわけです。
母集団を特徴づけてる数値なら、母数の一つとしてカウントされるってことにもなりますな。
母平均
上で書いた母数の一つです。母平均ってのは、母集団の平均のことです。そのままですな。
こちらも一次関数と対応させてみましょう。先に言っちゃいますと、母平均は原点に対応します。
一次関数では、母集団が数直線の取り得る値すべてのことを指してるのでした。なので、その数直線全体の平均は原点と言えます(数学的に厳密な話ではなく、あくまで直観的な話です)。母平均は母集団の平均値のことなので、一次関数における実数全体の平均、つまりは原点と対応します。
ちなみに、母集団が数直線全体に対応して、標本が定義域に対応するってことで、標本平均は定義域の中での中心に対応することになりますな。
例は面倒なので省きますが、母集団の中にあるデータ全部を足してデータ数で割ったものが母平均になります。
母分散
母集団自身の分散のことです。こちらは、残念ながら統計学固有の数値になります。
(というか、上手く対応する概念が思いつきませんでした。もしも思いついた方がいらっしゃったら、教えていただけるとありがたいです。)
コイツを予想したいがために、不偏分散を計算するんですな。
計算方法は、分散と標準偏差の違いとは ~似て非なるもの~あたりの記事をご参照いただければと思います~。まぁ、その記事でほとんど説明しちゃってるので、詳しくは書きませんが、母分散が大きければ全体的にばらつきが大きくて、母分散が小さければ全体的にばらつきが小さいってことになります。
どれだけばらついているのかを表す指標ってことですな。コイツも例を挙げようとするとちょっと大変になるんで例は省きます。
標本
母集団から取り出した一部のことです。(母集団から取り出すことを「抽出する」と言います)
母集団のところでも言った通り、一次関数でいう所の定義域に対応する概念になります。
例えば、日本人全体の健康と食事の時間帯の関係を調べようとした場合、全員分のデータを取って分析するというのは可能ではあるんですが、現実的ではないわけです。そこで、一部の日本人のデータを取って、そこから推測どれだけのばらつきがあるのか、どんな傾向があると言えるのかってことを導くわけですな。その「一部の日本人のデータ」が標本になるわけです。
他にも、あんぱんの異物混入の検査をするときなんかは、全てのあんぱんを調査するってのは現実的にも理論的にも不可能なわけです。そこで、全てのあんぱんの中から一部のあんぱんを取り出して、おそらく大丈夫だろうと予測するわけです。そのときに出てきた「一部のあんぱん」ってのが標本になります。
そんな感じで、考える範囲を限定するために標本を取り出すわけです。考える範囲を限定するって意味では、「標本」は「一次関数の定義域」と対応することになります。
変量
コイツは以前にも説明してるんですが、一次関数と対応させた説明を。
変量ってのは考える項目のことでした。例えば、雨が降ると交通量が多くなって、渋滞が起こりやすくなるのではないかと考えたとします。で、「渋滞が発生した数」と「降雨量」っていう2つのデータを取ったとすると、変量は「渋滞が発生した数」と「降雨量」の2つになります。
変量を一次関数と対応させてみますと「変数」が対応することになります。変量は変数って呼ばれたりもするんで、ある意味、同じ名前のもの(概念)が対応することになるわけですな。
一次関数ではxとyの関係を考えて、その考える項目のことを変数と呼んでたわけですからね。なので、統計学において考える対象を表す「変量」って概念は一次関数でいう所の「変数」に対応することになります。
標準偏差
データのばらつき具合を表した指標のことです。
ざっくりと言うと、データがどの範囲に収まっているかを見るときに使える数値で、平均値を基準として、標準偏差の上下2倍分の間に大体95%が収まってるって性質を持ってる数値のことですな。
平均値 – 標準偏差の2倍と平均値 + 標準偏差の2倍の間に大体95%が入ってるってことですね。
標準偏差にかける値を2倍以外にすると、それに伴って、範囲内にあるデータの数も変わっていきます。なんで、どのくらいの範囲にデータの何%が収まっているかを知りたいときには便利な数値となっております。
詳しくは、標準偏差 ~範囲が知りたい!~や標準偏差とは何なのか ~真実の嘘にご注意を~辺りをご参照くださいませ~。
終わりに
一次関数と対応させて説明してみましたが、いかがだったでしょうか?
個人的には、一次関数の用語と統計学の用語がキレイに対応させられなかったのが残念だったんですが、まったく違う理論であるにもかかわらず、似たような概念があるって所から、みかけは違ってもやっぱり同じ数学なんだな~って思いましたね。(今度はもっとうまく対応するものを見つけるぞっ!)