スポンサーリンク

標本分散と不偏分散 ~ばらつきを表す?元を予想する?~

分散はばらつきを表すけど、標準偏差とはちょっと違う性質を持ってるから、どっちか片方だけじゃちょっと問題があるよねーって話を前にしたわけです。

ただ、一言に「分散」と言っても色んな種類の分散があって、種類によってはばらつきを表すし、種類によってはまた別のものを表すしってことになるんですな。ってことで、今回は標本分散と不偏分散についてお話していきます。

要するに、分散は種類によって表すものが違ってて、今回はその違いについて話していくよーってことですな。それで、標本分散と不偏分散についてお話していきますよと。

スポンサーリンク

標本分散と不偏分散の役割

まず標本分散と不偏分散は表すものが違うってことなんですが、具体的にどう違うの?表すものが違うと、使われる場面にどういう違いが出るの?ってことについて、お話していきます。

標本分散

標本分散(単に分散と呼ばれることもありますが、この記事では対比を分かりやすくするために「標本分散」で統一させていただきます)についてなんですが、これは資料を用意したときに、その資料がどれだけばらついているかを表す指標になります。

資料のばらつきを表せるんで、母集団の分散(母分散)を計算するときに使われたりします。他にも、データを取って、そのデータがどれだけバラついているのかを知りたいってときに使われるのはこっちの方です。

不偏分散

不偏分散も入手したデータから計算される分散になりますが、標本分散のときとはちょっとだけ事情が違っています。

標本分散は入手した資料のばらつきを表していました。ですが、不偏分散は資料そのものではなく、その資料を取り出した元々の集団の分散の予測値(母分散の予測値)を表します。

なので、標本分散の場合、資料がどれだけばらついているかを知りたいってときに使われてましたが、不偏分散の場合、資料を取り出した元々の集団の分散(母分散)を知りたいときに使われます。他にも、母分散が分からないにも関わらず、母分散を比較する必要がある検定の中で使われるのは不偏分散の方です。

例えば、蛍光灯の寿命がちゃんとそろっているかの検査をしたいときなんかがそうですな。蛍光灯の寿命調査をしたいけど、原理的にも費用的にも全数調査は不可能です。全数調査をすれば、売り出せる蛍光灯が無くなっちゃいますので(まさか、調査済みの蛍光灯を売ったりはしませんよね)。そんなときには、原理的に不偏分散を使った検定をするしかないってわけです。

検定ってなんだ?って方はこちらの記事をどうぞ。

それぞれの計算式

標準偏差と分散は違うものだよーってお話を思い出してみてください。役割の違い、性質の違いは計算式の違いのせいで生まれたものでした。それから類推して、もしかして標本分散と不偏分散でも同じようなことがあるのではないか?と考えた方がいらっしゃったら「ご名答!」です。

標本分散と不偏分散の違いもまた、計算式に起因するものなんです。ってことで、計算式の方を載せておきます。数式アレルギーの方は、「なんか、とりあえず計算式が違ってるから性質が違ってるんだな」ってことだけ理解していただければオッケーです。

標本分散

標本分散の計算式はこちらになります。

※\( n \)はデータ数、\( x_i \)はi番目のデータ、\( \overline{x} \)は平均値を表しています。

$$ 標本分散 = \frac{1}{n} \sum_{i=1}^n (x_i – \overline{x}) $$

こちらは以前の記事に書いたものと同じですな。

まずデータの平均値を求めておいて、それぞれのデータから平均値を引きます。データから平均値を引いた数値(偏差と呼びます)を全部足し合わせます。そうして求まった偏差の総和をデータ数で割ってやれば、標本分散が求まります。ってのが、上の式の意味するところになります。

不偏分散

続いて、不偏分散の計算式はこちらになります。

$$ 不偏分散 = \frac{1}{n-1} \sum_{i=1}^n (x_i – \overline{x}) $$

標本分散の計算式との違いは偏差の総和をデータ数で割ってるか、データ数-1で割ってるかです。ここでのデータ数-1(数式の中でいう所のn-1)のことを「自由度」と呼びます。

つまりは、偏差の総和をデータ数で割るか、自由度で割るかによって資料のばらつきを表すのか、母分散の推定値を表すのかが変わるってことですな。

まとめると

なんか、想像以上に長くなっちゃいそうなので、続きはまた今度にします。

とりあえず、今回は標本分散と不偏分散は計算式が違っているから、その性質も違ってきて、利用される場面にも違いが出てるんだなってことが分かっていただければ幸いです。で、具体的には、標本分散は資料そのもののばらつきを表して、不偏分散は母分散の推定値を表してるってことでした。

タイトルとURLをコピーしました