スポンサーリンク

不偏分散の考え方を解説してみた ~どうか偏りませんように~

以前に不偏分散について書いたことがありましたが、ざっくりとした概要しか書かなかったので、今回はどういう考え方、理論があって母分散を予測できるのか?どうしてそんな計算式になるのか?って辺りを説明していきます。

スポンサーリンク

標本分散 \( \neq \) 母分散

不偏分散が何なのかを説明する前に、そもそも理解しておいてほしい話についてです。

そもそも、不偏分散ってのは母分散がどれくらいなのかを知りたいって要求から考え出された数値になります。

母分散が知りたいとしても、全数調査は実質的に(あるいは現実的に)調査不能な場合があるから、母集団から標本を抽出して母数を割り出そうとするってわけですな。

ただ、「標本を抽出する」って操作をすると問題が起きまして、残念ながら標本分散=母分散っていう風にはならないんです。

どんな問題が起きるのかと言いますと、標本自体が確率変数になってしまうって問題です。

1から1000までの実数から適当に50個の数値を取り出すとしますよね。その場合、毎回標本として採れるデータは違っているはずです。データが確率変数になるわけですな。

分散は各標本から計算される数値でしたから、分散も確率変数になってしまうわけです。(こういう風に標本から「計算された」数値は統計量と呼ばれます)

つまり、1から1000の中から適当に抽出すると、平均が500で分散が20の標本が取れたり、平均が491で分散が32.1の標本が取れたりするってことですな。どんな標本が取れやすいかは各数値の選ばれる確率によりますけど。

3つの性質

標本分散が確率変数になってしまうと母分散とは違う数値になるのが当たり前って話は理解していただけたか思います。ってことで、統計量から母分散を予想しようってことになります。

統計量(標本から計算された確率変数)から母分散を予想する場合、統計量には母分散を上手く言い当てられる性質を持っておいてほしいわけです。少なくとも、理屈の上では何らかの操作で母分散を正確に割り出すことができてほしいわけです。

母数を推定するための統計量(推定量って呼ばれます)が持っておいてほしい性質ってのは次の3つになります。

不偏性・・・推定量の平均値が母数と一致するっていう性質
一致性・・・標本数を多くするほど推定量が母数に近づいていくって性質
有効性・・・推定量の分散が最小って性質

もしも推定量に不偏性がないと、調査結果の平均値と母数とが一緒にならないわけですから、的外れな数値になる可能性があります。もしも平均値と母数が一致しないと過大評価になったり、過小評価になったりする可能性があります。過大評価、過小評価ってのは偏りがあるってことになりますから、「不偏」って名前はぴったりですな。

一致性がないと、標本数を無限大にしても一致しないってことになりますから、それではそもそも推定量と呼べません。

有効性がないと、推定量のばらつきが大きいってことになりますから、あまり信頼のおけない数値ってことになります。有効性が無い推定量は精度が悪いってことですな。色んな推定量があった場合、分散の一番小さな推定量が有効性を持った推定量ってことですな。

不偏分散の平均値=母分散となるように(n-1で割る理由)

推定量は上の3つの性質を満たしておいてほしいわけです。不偏分散も然りです。3つの内の1つ、不偏性に注目してやります。

不偏分散は不偏性を持った推定量であってほしい、つまり、不偏分散の平均値(=不偏分散の期待値)=母分散という関係が成り立ってほしいわけです。ってことで、この関係から不偏分散が偏差平方和をn-1で割ったものであるってのを導いていきます。

標本分散を\( S^2 \)としておいて、標本分散を次のように定義しましょう。(途中に出てくる\( X_i \), \( \overline{X} \)はそれぞれi番目の標本と標本平均、\( \mu \), \( \sigma^2 \)はそれぞれ母平均と母分散です。確率変数は分かりやすくしたかったので、標本を表す文字は大文字にしました。)

$$ S^2= \frac{1}{n}\sum_{i = 1}^n {(X_i – \overline{X})^2} $$

母分散の定義と一緒ですな。そのまま計算を続けていってもいいんですが、後の計算のために両辺にnをかけておきます。

$$ nS^2= \sum_{i = 1}^n {(X_i – \overline{X})^2} $$

で、この右辺なんですが、これまた後の計算で楽をするためにちょっと細工をしておきます。

細工の結果がこれで、

$$ nS^2 = \sum_{i = 1}^n {(X_i – \overline{X})^2} = \sum_{i = 1}^n (X_i – \mu )^2 – n (\overline{X} – \mu )^2 $$

その理由がこちらです。(面倒だったので、シグマ記号のi=1とnは分かりづらいとこ以外は省きました。すんません)

$$
\begin{equation*}
\begin{split}
\ nS^2 &= \sum (X_i – \overline{X} )^2 \\
&= \sum (X_i^2 – 2 X_i \overline{X} + \overline{X}^2) \\
&= \sum (X_i^2 – 2 n \overline{X} \sum X_i + n \overline{X}^2) \\
&= \sum (X_i^2 – 2 n \overline{X}^2 + n \overline{X}^2) \\
&= \sum (X_i^2 – n \overline{X}^2 ) \\
&= \sum (X_i^2 – \sum_{i = 1}^{n} \overline{X}^2) \\
&= \sum_{i = 1}^{n} {(X_i^2 – \overline{X}^2 ) } \\
&= \sum_{i = 1}^{n} {(X_i^2 – \overline{X}^2 – \mu^2 + \mu^2 – 2 X_i \mu + 2 X_i \mu ) } \\
&= \sum { ( X_i – \mu )^2 } – \sum{ ( \overline{X} – \mu)^2 } \\
\end{split}
\end{equation*}
$$

次に期待値を計算してやりましょう。

$$
\begin{equation*}
\begin{split}
\ E(nS^2) &= E(\sum { ( X_i – \mu )^2 } – \sum{ ( \overline{X} – \mu)^2 } ) \\
&= E ( \sum { ( X_i – \mu )^2 } ) – E ( \sum{ ( \overline{X} – \mu)^2 } ) \\
&= n \sigma^2 – n E \{ ( \overline{X} – E ( \overline{X} ) )^2 \} \\
&= n \sigma^2 – n \frac{ 1 } { n } E \{ ( X – E ( X ) )^2 \} \\
&= n \sigma^2 – \sigma^2 =( n – 1 ) \sigma^2 \\
\end{split}
\end{equation*}
$$

なので、

$$ E(S^2) = \frac{ n – 1 } { n } \sigma^2 $$

この\( E(S^2) \)ってのが標本分散の期待値ですな。とりあえずここまでで、標本分散の定義式が上の定義式のままでは母分散と一致しないってことが分かりました。

そこで、次に

$$ E( S’\ ^ 2 ) = \sigma^2 $$

となるように\( S’\ ^ 2 \)を決めてやりましょう。

$$ S’\ ^ 2 = \frac{ n } { n – 1 } S ^ 2 $$

と定義すれば、上の\( S’\ ^ 2 \)の条件を満たしてくれます。でもって、この\( S’\ ^ 2 \)の式に上で定義したSの式を代入してやると、、、

$$
\begin{equation*}
\begin{split}
\ S’\ ^ 2 &= \frac{ n } { n – 1 } S ^ 2 \\
&= \frac{ n } { n – 1 } \frac{1}{n}\sum_{i = 1}^n {(X_i – \overline{X})^2} \\
&= \frac{ 1 } { n – 1 } \sum_{i = 1}^n {(X_i – \overline{X})^2} \\
\end{split}
\end{equation*}
$$

というわけで、めでたくこの\( S’\ \)は不偏性を持った母分散の推定量となったわけです。

この不偏性を持った母分散の推定量が皆さんのよく知る不偏分散なわけでございます。

 

理論的な背景を知りたい方のために、こんな本を紹介しときます。天下り的な部分や理論の省略があったりするものの、数式の説明が載っていて(この記事での数式変形みたいな)、推定とか検定とかも具体的な計算付きで説明してくれている本です。ページ数も少ないので、サクッと統計学ではどんなことができるのかを理論付きで知りたいって方にはおすすめです。

タイトルとURLをコピーしました