スポンサーリンク

不偏分散 ~「不偏」の重要な意味とは?~

以前、分散には標本分散と不偏分散ってのがあって、それぞれ性質がまったく違うんだよーってお話をしました。

ざっくりとおさらいしておきますと、標本分散は標本自体がどれくらいばらついているのかを表した数値で、不偏分散は標本を抽出してきた元々の母集団の分散(母分散)はどれくらいかを推定した数値でした。計算方法から見た違いってのは、データ数nで割るのかn-1で割るのかってことでした。nで割ると標本分散、n-1で割ると不偏分散になりました。

今回は、nで割った標本分散から母分散を予想しちゃダメなの?って話とか、そもそも不偏分散の「不偏」って何なのよ?自由度って何なのよ?ってあたりを説明していきますので、どうぞよろしくお願いしますー。

スポンサーリンク

標本分散、不偏分散は何通りもある

それでは、母分散を標本分散から予想しちゃダメよってお話から。ここで言いたいことは、「標本から計算される分散は確率変数の一つなのだ!」ってことです。

そもそもなんですけど、標本分散にしろ不偏分散にしろ、標本から計算された分散ってのは、標本によって違った数値、つまりは確率変数だってことですな。

っていうのも、標本ってのは一つの母集団に対して何通りも作り出せます。なので、1つの標本に対して1つの数値を計算できる標本分散みたいな数値は標本の数だけ出てくるんですな。

例えば、「A、B、C、D、E、F、G、H、I、J」っていう母集団があって、ここから3つを取り出して標本とするって決めたとします。その場合、「A、B、C」も標本ですし、「A、G、J」も標本になります。B、CとG、Jが一緒でない限り、それぞれの標本はまったくの別物になります。こうなると、当然その2つの不偏分散も変わってきますよね。それ以外にも標本の取り方があるって考えれば、標本分散はいくつもあるってのも納得してもらえるかと思います。

ってなわけで、母分散っていう一つの数値を知りたいのに、いくつもそれらしい数値が出てきてしまって困っちゃうわけです。

平均を取ると…?

母分散が知りたいけど、いくつもの候補が出てきて困ったわけです。色んな標本から計算された分散は、当然大きいものもあれば小さいものもあるし、本当の母分散に近いものもあれば遠いものもあるってことですな。

じゃあ平均値を取ってやろうって発想に至るのは自然な流れかと思います。ただ、一つ問題があって、標本分散の平均値と母分散ってのは一緒にならないんです。母分散と分散の平均値を一致させるためには、分散をnで割る代わりにn-1で割らないとダメなんですな。

これが不偏分散っていう名前にある「不偏」って言葉の意味になります。

つまり、考えられるすべての標本に対して不偏分散を計算して、計算した不偏分散全部の平均値を計算してやると、その最終結果と母分散が一致するって性質があるんですな。そんな性質を持ってるってことを「不偏性がある」って言います。不偏分散は名前の通り、不偏性を持った分散なわけです。

鎖に首輪を付けられたデータの数

不偏分散の計算式の説明で、「自由度」ってのが出てきました。コイツはざっくりと説明すると、自由に動ける変数の個数のことです。

方程式が与えられると、変数が自動的に計算で求まったりしますよね。そういう風に、計算すれば決まるっていうような変数は他の変数に数値を決められてる、つまりは自由に動けない変数ってことになります。

方程式に使われてる変数の個数から、自由に動けない変数の個数を引いた数値のことを自由度と言います。

例えば、\( x+y+z+w=0 \)って方程式があったとしますよね。その場合、方程式の自由度は3ってことになります。

方程式を\( x=-y-x-w )\っていう風に変形してやると、xが自由に動けない変数ってことになりますし、\( y=-x-z-w )\っていう風に変形してやると、今度はyが自由に動けない変数ってことになります。

仮にy=2、z=4、w=-9っていう風に決めたとします。その場合、xは\( x=-y-z-w \)っていう関係を満たしてないといけないので、下に書いたような計算でx=3って自動的に決まります。y、z、wを決めたときみたいには決められないってことですな。

$$ \begin{align} x &= -y-x-w \\ &=-2-4-(-9) \\ &=3 \end{align} $$

上の計算では、x以外の3文字を決めるとxが自動的に決まりました。x以外の3文字でなくてもyやz以外の3文字を決めても、yやzは計算式で勝手に決められてしまいます。ってことで、人がテキトーに決めても問題ない変数の個数ってのは3つってことになります。

なので、方程式の自由度は3ってことになります。ある文字は他3つの数値によって決められるとも言い換えられますねー。

自由度はn-1

不偏分散を計算しようとする場合、偏差の2乗の総和を自由度で割らないといけないんですが、必ずこんな関係が成り立ってないといけません。

$$ (x_1-\overline{x}) + (x_2 – \overline{x}) + ・・・ + (x_n – \overline{x}) = 0 $$

何が言いたいかと言いますと、n個ある偏差(データから平均値を引いた値)の内、どれか1つは他の偏差に決められてしまうってことです。つまりは、偏差の総和は0になるという方程式の自由度はデータ数-1になる、偏差の自由度はデータ数-1になるってことですな。

なので、不偏分散の計算で偏差の二乗の総和を自由度で割るってときにn-1で割ることになるわけです。

まとめましょー

分散ってのは確率変数なんで、全標本の平均値を取らないと母分散と同じ数値にはなりませんでした。ただ、標本分散には不偏性が無いので、平均値を取っても母分散にはならないって問題がありました。その問題をクリアしたのが、データ数ではなく自由度で割った不偏分散って数値でした。で、不偏分散を計算するときの自由度ってのはn-1になりますよってお話でした。

不偏分散は母分散を予想できるって性質を持ってるので、推定やら検定やら共分散分析やら色んな所で使われることになります。なので、推測統計学で重要になってくるのは不偏分散の方です。

P.S. 「この概念はこういう風にとらえたらいいのか」っていう感じで、頭の中にイメージを持っておきたい方にはこんな本がおすすめです。

タイトルとURLをコピーしました