スポンサーリンク

正規分布と標準偏差の関係について ~標準偏差を理解する~

今回の記事では正規分布って何?とか、標準偏差の視覚的なイメージについてお話していきます。

以前、標準偏差はデータがどの程度バラついてるかを示す目安として使えるよーみたいなことを書きました。

標準偏差ってのは、ばらつきの基準として使える数値でした。ざっくりとおさらいしときますと、平均値が\( \mu \)、分散が\( \sigma^2 \)と表される場合、その標準偏差は分散の平方根、つまり\( \sigma \)になるのでした。

で、あるデータが正規分布に従う場合、そのデータの95%は\( \mu – 1.96\sigma \)から\( \mu + 1.96\sigma \)の間に含まれるよーって話をしました。

つまり、分散\( \sigma^2 \)が(標準偏差\( \sigma \)が)大きくなればなるほど全データの95%が収まっている区間が広くなることになります。分散\( \sigma^2 \)が大きくなるということは、それだけ95%のデータを収めるのに必要な区間が広がることになります。結果として、同じように全データの95%と言い表しても、分散の大きさによってばらつきが違ってくることになります。

今回は平均値と標準偏差の関係についてもう少し踏み込んでいきます。具体的には、上の話は確率変数が正規分布に従うことを前提にしてるんですけど、その正規分布って何?って話とか、平均値と標準偏差の関係を視覚的に表すとどうなるのかって話をしていきます。

とりあえずこの話だけ分かっとけば、母集団の平均値は?みたいな推定なら理解できるのではないかと思います。

スポンサーリンク

正規分布

正規分布って単語が繰り返し出てきてますけど、正規分布ってのは以下の式で表される確率密度関数の一つです。確率密度関数はざっくりと言うと、ある数値の周辺の数値の起こりやすさを連続的な関数で表したもので、ある区間内の数値の発生する確率が、確率密度関数をグラフとして表したときの面積として表されたものになります。

$$ f(x) = \frac{ 1 } { \sqrt{ 2 \pi \sigma^2 } } \exp( -\frac{ ( x – \mu )^2 } { 2 \sigma^2 } ) $$

\( \exp( -\frac{ ( x – \mu )^2 } { 2 \sigma^2 } \)ってのは、ネイピア数の\( -\frac{ ( x – \mu )^2 } { 2 \sigma^2 } \)乗って意味です。

これをグラフにしてやると、\( \mu \)と\( \sigma^2 \)の設定の仕方で、もっと尖ったり、なだらかになったりと形が少し変わるものの、大体この記事のサムネイルとか次の節の図みたいな感じになります。いわゆる釣鐘型ってやつですな。

正規分布のグラフを描くときは、まず、グラフの横軸に確率変数Xを、縦軸に確率密度f(x)を取ってやります。で、横軸の具体的なxに対応する確率密度を上の式で計算して順にプロットしていくと釣鐘型のグラフが出来上がります。

ここで、正規分布が確率密度関数だったことに注意してください。どういうことかと言うと、確率密度関数はある区間内の数値が発生する確率を面積として表した関数なのでした。つまり、ある区間に対応する面積は、確率(全体の面積に対する面積の割合と読み替えると分かりやすいかもしれません)を表したものになります。

なので、発生したデータが「この範囲内にある!」と95%の確率で(つまり、20回中19回)言い当てられるような区間を知りたい場合には、面積がちょうど95%になるような区間を計算することになります。

そんな区間を表現するときに役立つのが標準偏差というわけです。ただ、同じ”95%”でも、左からの”95%”なのか、右からの”95%”なのか、中心から左右対称に広げていったときの”95%”なのかというように、色んなパターンが考えられるんです。

なので、ここでは中心(平均値\( \mu \))から左右対称な区間を取ったときに、その区間の面積が95%となるような区間を計算してやりましょう。(平均値と分散は具体的な数値が与えられてないんで、公式を求めるみたいになりますが)

計算すると言っても難しいことはなくて、ただ平均値に1.96をかけた標準偏差を足したり引いたりするだけで、データが95%の確率で収まる区間が求められます。ここで解説した計算を数式に表すと下に示すような感じになります。値の大きい方(つまり、足し算をした方)が求めたい区間の右側、値の小さい方が求めたい区間の左側になります。

$$ \mu \pm 1.96\sigma $$

この考え方を利用すれば、標本が正規分布に従うと考えられる場合は、「標本の95%が収まっているのはこの区間だ」って言える区間が平均値と分散から計算できるわけです。95%が収まっている区間が広いか狭いかによってばらつきが大きいのかどうかが分かることになります。

標本によって分散とか平均値は違ってますが、95%になる中心から左右対称な区間であれば、必ず上の計算式を使うことになるので、分散が大きければ大きいほど区間は広がっていくことになります。

スポンサーリンク

図解してみるとこんな感じ

山の頂上に対応する横軸の数値は\( \mu \)であると説明しました。視覚的に言えば、下図のような感じです。ちょうど山の中心に対応した横軸の部分に\( \mu \)があるのが分かるかと思います。Excelみたいな表計算ソフトで確率密度関数の表とグラフを作れば数値的に確認できるので、本当に山の中心に平均値が来るのかどうかを確かめたい方はどうぞ。

図は正規分布のグラフの模式図で、ある特定の数値で区切って色を付けたものです。青色の区間と橙色の区間の境目は\( \mu \pm 1.64\sigma \)で、橙色と緑色の区間の境目は\( \mu \pm 1.96\sigma \)となっています。

青色の領域+橙色の領域が全体の95%が存在する区間になり、右側の橙色+緑色が全体の上位5%が存在する区間になり、左側の橙色+緑色が全体の下位5%が存在する区間になります。

正規分布の平均値と標準偏差との関係を模式的に示した図
青色部分の面積と橙色の面積との合計が、全面積の95%を示し、
その面積に対応する区間内の数値(\( \mu \pm 1.96\sigma \))が95%の確率で発生することを示す。
右側の橙色と緑色を合計した面積が全体の内、上位5%を示す。
左側の橙色と緑色を合計した面積が下位5%を示す。

このように、平均値\( \mu \)に標準偏差\( \sigma \)の定数倍を足したり引いたりすると、ある確率に対応した区間が決まるようになっています。

タイトルとURLをコピーしました