久しぶりに統計学記事です。今回は用語をまとめた統計学用語集の第3弾です。このブログの記事を読んでたり、統計学を勉強してたりするときに「あれ?この単語の意味って何だっけ?」「どんな定義だっけ?」「どう解釈すればいいんだっけ?」みたいに度忘れしたときなんかにご利用くださいませ~。
今回は「確率密度関数」「正規分布」「大数の法則」「中心極限定理」と、主に確率密度関数とそれにまつわる定理についてザックリと説明しました。
ちなみに、第1弾と第2弾のリンクは下に載せときますんで必要ならどうぞ~。
第1弾:統計学用語集 ~試行、事象、変量とかについて~
第2弾:統計学用語集 ~誰もが知ってる「あれ」と対応させてみた~
確率密度関数
”連続値であるような”事象がどの程度起こりやすいかを関数の形式で表したものです。言い換えると、ある連続値が発生する確率を関数で表したものが確率密度関数であるとなります。その起こりやすさ(つまり確率)は、関数をグラフで表したときの面積で表されます。
なぜ面積が確率になるのかを説明します。
例えば「オレンジの重さ」みたいに、確率的にある連続値を取る状況を考えてみます。お好きな例を思い浮かべてもらえればオッケーなんですが、ここではオレンジの重さで説明していきます。
オレンジの重さというのは、秤(はかり)で”237g”みたいな感じで数値として記録できます。ただし、それは本当に237gなのでしょうか?
というのも、小数点以下にも延々と数字が並んでいるはずです。ぴったり237.000…(ゼロが無限に続く)gというわけではなく、重さをもっと詳しく量っていくと237.142739…gみたいになっているはずです。つまり、小数点以下を制限なしに量っていくとどこまでも数字が続いていることになります。
なので、”ある重さ”が量り取られる確率というのはゼロに等しくなってしまいます。仮に237.1gが量り取られる確率を求めようとしても、237.1000…g以外は、たとえ一桁だけ数字が違うだけでも全く違う数字として扱われてしまうので、”ぴったりある重さ”が量り取られる確率はゼロに等しいと考えることになってしまいます。(数式っぽく説明すれば、1 / 正の実数の個数=”ある数”の量り取られる確率となるので、ゼロに等しくなる)
要するに、”ある重さ”が量り取られる確率はゼロになるってことですな。
しかし、”ある重さ”が量り取られる確率をゼロ以外の数値として定義したい昔の人は考えました。でも、数値として量り取れる以上、何かしらの方法で”ある重さ”の発生する確率を、ゼロ以外の数値で定義できるはずだと。そこで役立った概念が、小学校でも教わった四捨五入です。
昔の人はこう考えました。
「”ある重さ”というのを、”ぴったりとある重さ”と定義するのではなく、”大体ある重さ”と定義すれば良いのだ。例えば、237gの発生する確率なら、236.500…(0が無限に続く)gから237.499…(9が無限に続く)gまでの数値が発生する確率とすれば良い。さらに、237.050…から237.049…のように、その幅を小さくしていけば、ある重さが量り取られる確率を考えることが出来るのではないか」と。
要するに、四捨五入で237.000…gになる数値の発生する確率を237gの発生する確率として考えることにしたわけですな。しかし、「確率」は本来、ある一つの数に対して一つの数が決まらなければなりません。例えば、237gの発生する「確率」と言った場合、237.000…gの発生する確率を意味することになってしまいます。
「確率」という言葉では、「四捨五入して237.000…gになるような数」みたいな、ある範囲内の重さの起こりやすさを表すことが出来ないってことですな。そこで、このような”ある範囲内の数値が発生する確率”を”確率密度”と定義したわけです。
なので、ある範囲(例えば、236.5gから237.4gまで)の”確率密度”をすべて足したもの(つまり、積分したもの)は”確率”になるということになります。
正規分布(ガウス分布)
確率密度関数の一つで、グラフにすると下の画像のような形になるもののことです。確率密度関数は基本的に、縦軸に確率密度、横軸に考えている数値が取られます。このグラフもそのように軸を取って描いています。
数式で表すと、次のような感じです。
$$ f(x) = \frac{ 1 } { \sqrt{ 2 \pi \sigma^2 } } \exp( -\frac{ ( x – \mu )^2 } { 2 \sigma^2 } ) $$
このxは確率変数で、f(x)は確率密度になります。つまり、f(x=237)というように、xに237を代入して計算すると、”大雑把にx=237である確率”が計算できるわけですな(大雑把と言っても、めちゃくちゃ細かいんですが)。
で、そのf(x)は具体的にはこういう数式になってるよーってのを表したのが右辺になります(覚えなくても大丈夫です)。
ちなみに、ある確率変数が正規分布に従ってて、標準偏差が\( \sigma \)、平均が\( \mu \)だと分かっている場合、確率変数が\( \mu \pm 1.96\sigma\)の範囲内に収まる確率は95%、\( \mu \pm 2.58\sigma \)の範囲内に収まる確率は99%になっています。
大数の法則
ある母集団から標本を抽出するとき、抽出する数を大きくすればするほど、標本平均は母平均(真の平均値)に近づくよーって法則のことです。
例えば、母集団には1000個の要素があったとします。そこから10個を抽出して標本平均を計算した場合と999個を抽出して標本平均を計算した場合とを考えてみます。
その場合、10個の標本から計算した標本平均よりも、999個の標本から計算した標本平均の方が、母平均に近くなるというのが大数の法則の言っている意味になります。
これは感覚的にも理解しやすい話ではないかと思います。
ただし注意点があって、たとえ1000個の中から999個を無作為に抽出したとしても、1000通りの選び方があることになって、1000通りの標本平均があることになります。もしも10個の標本から標本平均を計算したとすると、もっと多くの標本平均が存在することになります。
つまり、標本平均にはばらつきがあって、母平均に近い値になるか、遠い値になるかは確率的に決まるというわけです。(ただし、標本の大きさが大きければ大きいほど、標本平均が母平均に近い値を取る”確率”は高くなっていく。)
では、その”確率”というのはどのような性質を持っているのでしょうか?
というのを明らかにしたのが、次の中心極限定理になります。
中心極限定理
中心極限定理は、大雑把に言うと、標本平均が正規分布に従うという定理になります。
もう少し詳しく説明すると、
母集団がどんな確率分布であっても、平均値\( \mu \)で分散が\( \sigma ^ 2 \)であるという前提条件があれば、その母集団からn個の標本を無作為抽出した場合、標本平均は平均値\( \mu \)(=母集団と同じ平均値)、分散\( \sigma ^ 2 / n \)の正規分布に従う
という定理になります。
イメージで言うと、中心極限定理は大数の法則をより深く掘り下げたような定理になっています。
大数の法則は、「標本の大きさを大きくすればするほど標本平均が母平均と同じような数値になる可能性が高くなっていく」という定理でした。標本平均も確率的に決まるにもかかわらず、大数の法則だけでは標本平均がどのような確率分布に従うのかまでは分かりませんでした。
大数の法則では分からなかった標本平均の従う確率分布がどのような分布なのかを説明して、その分布が母平均\( \mu \)、分散\( \sigma ^ 2 / n \)の正規分布であると示したのがこの中心極限定理になります。
大数の法則と中心極限定理の違いをまとめると次のような感じです。
大数の法則:とりあえず標本数を大きくすれば、標本平均は母平均に近づくって言ってる
中心極限定理:標本として選ばれたデータによって標本平均はばらつくけど、正規分布に従う
この前に書いた正規分布に従う乱数は、この中心極限定理を利用して作りました。
終わり
というわけで、確率密度関数というか、正規分布に関する事柄について4つほどまとめてみました。特に、確率密度関数は概念自体が少し複雑なので慣れるまでには時間がかかるかもしれませんが、ゆっくりじっくり理解してくださいませ~。ではでは~。