スポンサーリンク

母平均のより汎用的な区間推定 ~不偏分散はここで使う!~

記事内に広告が含まれています。

今まで、不偏分散と標本分散は別物でっせという話を、下に挙げた記事の中で色々と書いてきたわけです。

ざっくりとおさらいしときますと、不偏分散というのは、同じ母集団から大量の標本を取ってやって、その標本一つ一つから不偏分散を計算したとき、その不偏分散の平均値は母分散とまったく一致するという性質を持っていたのでした。

そのため、不偏分散は母分散を予想した数値、母分散と似たような性質をもった数値となっています。

ただし、不偏分散の使い道についてはほとんど触れてきておりませんでした。なので、「不偏分散って概念があって、どういう性質を持ったものかは分かったけど、結局不偏分散っていつ使うの?」と思われている方も多いかと思います。

今回はその話を解決しながら、前回記事よりも汎用性を高くした計算をやっていきます。

スポンサーリンク

前回の設定は非現実的

この前、オレンジの例で母平均を計算してみました。

こちらもざっくりとおさらいしときます。考え方は、標本平均は正規分布に従うんだから、何%の確率でどの範囲に収まるかが分かるよねー。実用上は、その範囲が分かるだけでも十分じゃないといったものでした。

つまり、母平均が確率的に収まる範囲を計算していたわけです。で、その計算をするときにはデータ数と標本平均、そして母分散という”前回の記事の中では”すでに分かっている者とした3つの数字を利用したのでした。(具体的な計算が知りたいって方は前回の例をご参照くださいませ~)

ただ、前回の計算には一つ現実的でない想定がありました。

「母分散」です。

母分散が初めから分かっているということは少ないと思います。母分散が初めから分かっているとは、母集団全体のバラつき具合が最初から分かっているということを意味します。前回の例で言えば、すべてのオレンジの重さの平均値は分かっていないけど、オレンジ全体の重さがどれだけバラついているかという正確な数値がすでに得られているということです。

母平均を推定しようとしているということは、全数調査はしていないということになります。にもかかわらず、ばらつきについては間違いのない数値が得られているという状況は考えにくいかと思います。

そのような状況よりも、平均値もばらつき(母分散)も分かっていないという状況の方がまだ考えられる状況かと思います。

では、前回の区間推定では母分散を使って計算をしていったのに、それが使えないとなるとどう計算していけばいいの?となりますが、それを次の節で解説していきます。

不偏分散は母分散の影武者

不偏分散は、上でも少し触れた通り、理論的には母分散と似たような性質を持った数値になります。

不偏分散は、本質的には母分散と同じものってわけですな。そこで、「母分散が分からないのであれば、代わりに不偏分散を使えばいいじゃないか」という発想が出てくるわけです。

そういう発想のもとに区間推定を行えば、母分散が分からない状態でも母平均の区間推定ができることになります。

では、次の節では、母分散が分からない場合(ほとんどの場合は分かっていないと思いますが)の区間推定をやっていきます。

スポンサーリンク

オレンジの”より汎用的な”区間推定 ~考え方編~

前回と同様に、オレンジを例にして区間推定をやっていきます。ただし、今回は母分散が分かっていないとします。信頼度は前回と同様に95%とします。\( \alpha = 0.95 \)ってことですな。

で、データも前回と同じものにしておきます。具体的には、下に書いた通りです。

1 個目:220
2 個目:204
3 個目:206
4 個目:242
5 個目:213
6 個目:259
7 個目:211
8 個目:246
9 個目:237
10個目:214

区間推定を実際にやっていく前に、計算の筋道を確認しておきます。といっても、前回とほとんど一緒です。違うのは、母分散の代わりに不偏分散を使うって所だけです。

まず標本平均と不偏分散を計算します。前回同様、標本数10というのが中心極限定理が成り立つほど大きいと考えます。すると、中心極限定理から標本平均は正規分布に従うことになります。

※中心極限定理ってのは、平均と分散が分かっているある母集団から、標本を大量にとってやった場合、その標本平均は正規分布に従いまっせーという定理のことです。標本は確率的に決まる数値なので、標本平均も確率的に決まる数値になります。

ただし、標本平均が従う正規分布と言うのは、前回は平均が母平均\( \mu \)(コイツがどの範囲に収まってるかを知りたい)、分散が母分散を標本数で割ったもの\( \sigma^2 / n \)と考えることができました。しかし、今回は母分散が分からないので、母分散\( \sigma^2 \)の代わりに不偏分散(不偏分散を\( s^2 \)とします)を使うことにしました。

なので、標本平均は平均\( \mu \)、分散\( s^2 / n \)の正規分布に従うと考えて計算を進めていくことになります。

標本平均と不偏分散を計算できたら、標本平均が正規分布に従うって所から、標本平均が95%の確率で収まる範囲を、下に挙げた式のように母平均も使った不等式の形で表してやります。

$$ 母平均\mu – 1.96 \times \sqrt{ \frac{ s^2 } { n } } \le 標本平均 \overline{X} \le 母平均\mu + 1.96 \times \sqrt{ \frac{ s^2 } { n } } $$

最後に、母平均の範囲を表す不等式に式変形をして区間推定は終わりです。

では、次の節で実際に計算していきます。

スポンサーリンク

オレンジの”より現実的な”区間推定 ~計算編~

まずは標本平均\( \overline{X} \)を計算します。標本平均はその名の通り、平均を取るだけです。具体的には、標本の数値をすべて足し合わせてから標本数で割るっていう計算です。

$$ \overline{X} = \frac{ 220 + 204 + 206 ・・・ + 214 } { 10 } = 225.2 $$

次に不偏分散\( s^2 \)です。こちらは、偏差(各数値から平均値を引いたもの)をそれぞれ2乗してから、その2乗した偏差をすべて足し合わせて、標本数-1で割るって計算になります。おそらく下の計算式を見ていただいた方が早いと思います。

$$ s^2 = \frac{ (220 – 225.2)^2 + (204 – 225.2)^2 + (206 – 225.2)^2 ・・・ + (214 – 225.2)^2 } { 10 – 1 } \simeq 368.6 $$

さて、では標本平均\( \overline{X} \)が平均\( \mu \)、分散\( s^2 / n \)の正規分布に従うと考えられるというところから、次の不等式が成り立ちます(上の節で書いたものとほとんど一緒)。

$$
\mu – 1.96 \sqrt{ \frac{ s^2 } { n } } \le \overline{X} \le \mu + 1.96 \sqrt{ \frac{ s^2 } { n } } \\
$$

さて、こいつを式変形していきます。まず\( \overline{X} \)と\( mu \)を移行してから、すべての辺に-1をかけます。

$$
-1.96 \sqrt{ \frac{ s^2 } { n } } – \overline{X} \le -\mu \le 1.96 \sqrt{ \frac{ s^2 } { n } } – \overline{X} \\
1.96 \sqrt{ \frac{ s^2 } { n } } + \overline{X} \ge \mu \ge -1.96 \sqrt{ \frac{ s^2 } { n } } + \overline{X}
$$

次に、不等号を左の方が小さくなるように書き換えてから数値を代入していきます。

$$
-1.96 \sqrt{ \frac{ s^2 } { n } } + \overline{X} \le \mu \le 1.96 \sqrt{ \frac{ s^2 } { n } } + \overline{X} \\
-1.96 \sqrt{ \frac{ 368.6 } { 10 } } + 225.2 \le \mu \le 1.96 \sqrt{ \frac{ 368.6 } { 10 } } + 225.2
$$

最後に四則演算と平方根を計算すれば区間推定は終わりです。

$$
213.3 \le \mu \le 237.1
$$

が最終的な答えとなります。つまり、母平均は95%の確率で213.3gから237.1gまでのどこかにあると考えられるってわけですな。

母分散が不明ではあるけど、データ数が大きいと考えられる場合の区間推定は、こういう感じで進めていきます。

タイトルとURLをコピーしました