母平均の統計学 ～オレンジで学ぶ区間推定～

この記事のテーマは区間推定になります。考え方とか計算方法を具体例と共に説明していきます。

最近は抽象的で難しめの話が多かった気がするので、今回は具体的でまだ簡単な話をしていきます。高校とかで習った人も居てるかもしれませんねー。

推定は計算で予想すること
結果がある正解を含んだ区間になる区間推定
問題設定オレンジ10個を標本として取ってみます
信頼度の設定
オレンジの重さを測ってみると…？
求めたい区間は標準偏差から求めよう（中心極限定理より）
求めたい区間はどの辺りでしょ～か？

推定は計算で予想すること

推定というのは、抽出した標本から抽出元の母集団がどんな母数（平均値とか分散みたいに、母集団を特徴づける値のこと）を持っているかを予想することを言います。データの抽出元にはきっとこんな特徴があるんじゃないかなーって予想を計算で導き出すことを推定と呼びますよーってことですな。

推定が利用されている例で言えば、選挙のときに速報として出される当選確実とか、テレビの視聴率の算出なんかが挙げられます。どちらにしても、全部を調べてるわけではありませんので（選挙の場合は全数調査をしているんですが、票をすべて調べ終わるまでは標本調査です）。

他にも、全数調査が原理的に不可能な代物を調べるときにも使われます。例えば、蛍光灯の点灯時間がある一定の時間だけ持つと言えるかどうかとか、あんぱんの中に異物が混入していないかどうかとかです。

いずれにしても、調査対象としたその時点で商品としての価値がなくってしまうんで、性能評価をしようとすると、完成した商品全体を母集団として、ある数だけ適当に選び出して推定するしかないんですな（母集団の一部を標本として取り出して推定するっていう操作のことを標本調査と言います）。

結果がある正解を含んだ区間になる区間推定

上の節で、推定は標本から母数（母集団の特徴）を見つけ出すことですよーって説明をしたんですが、その推定はざっくり点推定と区間推定の2種類に分けられます。

点推定というのは、先ほど説明した推定の結果がある一点だけになるような推定方法です。
区間推定というのは、結果がある幅となるような推定のことを言います。

点推定と区間推定の関係は、虫取りをイメージしていただければ分かりやすいかと思います。極論的なイメージで言えば、虫1匹がちょうど収まるような小さな虫取り網の中に虫を入れるのが点推定で、地球を覆えるほど大きな虫取り網の中に虫を入れるのが区間推定です。

要するに、目当ての虫を狙って捕まえるという姿勢で行う推定が点推定で、虫をガサッとまとめて捕まえておいて、その中に目当ての虫がいるのを願うという姿勢で行う推定が区間推定ということになります。

推定の結果を予想の母数、母集団の持つ本当の母数を真の母数と言うことにしましょう（この言葉遣いはきっとこのブログだけのものです）。真の母数は母集団が決まった時点で1つに決まります。

それに対して、予想の母数は全数調査をしない限り、母集団が決まっても1つには決まりません。というのも、推定は標本を基に行うわけですが、その標本というのは抽出するごとに変わっていると考えるのが妥当です。

となると、何度も標本を抽出して推定を行えば、その推定した数値にもばらつきが出てくるはずです。果たして真の母数を推定で”寸分の誤差なく”導くことはできるのでしょうか？

答えは残念ながら「ノー」です。標本から確実に真の母数を特定することはできないので、区間推定ではきっと”この辺り”という母数が収まっていそうな区間を予想することになります。

言い換えると、区間推定は、正しい数値はこの数値だろうというように一つの数値を答えとするのではなく、正しい数値はこの範囲にあるだろうというように一つの範囲を答えとするわけですな。

では、区間推定がどんなものかをざっくりと説明したところで、次の節から区間推定の問題設定をしていきましょー。

問題設定オレンジ10個を標本として取ってみます

一言で「区間推定」といっても、これまた色んなパターンがあるんで、今回は母集団が正規分布に従って、かつ、その分散が30^2である（標準偏差は30です）という条件のもとで、母集団の平均値を区間推定することにします。ちなみに、この条件は本によっては「$ \mathcal{N}( \mu , 30^2 ) $に従う」みたいに書かれてたりもします。

正規分布ってのは、確率密度関数の一つです。気になる方は「正規分布」とか「ガウス分布」って調べてみていただければ釣鐘型のグラフが出てくると思います。そのグラフは確率密度と実際に発生する値との対応付けを視覚化したものになります。

※ここから記事の終わりまで、「区間推定」を単に「推定」と呼ぶことにします。

では、問題設定をします。今回は母集団をオレンジすべてとします。その重さに注目して、オレンジの重さを確率変数として、その確率変数をXとして表現することにします。確率変数Xは（オレンジの重さは）分散$ 30^2 $の正規分布に従うということにします。標本は、今回はオレンジ10個ということにしておきます。

各オレンジの重さはまた後で測ります。（この記事では勝手に設定します）

つまり、オレンジの重さは平均値不明、分散$ 30^2 $の正規分布に従う。そのとき、オレンジを10個を取り出して重さを測った。では、オレンジの重さの平均値はいくらになるでしょうか？ってのが今考えてる問題ということになります。具体的な重さはまだ決まっていませんが。

信頼度の設定

まずは信頼度とか信頼係数と呼ばれる数値を設定します。信頼度というのは読んで字のごとく、どれだけ信頼できるかという度合いを表した数値のことです。信頼度が高ければ高いほど、推定の結果（つまり、求める区間）は広くなり、真の母数がその区間内に存在する確率が高くなります。逆に、信頼度が低ければ低いほど、推定の結果として計算される区間は狭くなります。

この信頼度が上の節でお話した虫取りの例で言うところの”網の大きさ”になります。

今回は信頼度は95%としておきます。イメージで言えば、同じ母集団から標本を20回抽出して、20個の標本それぞれから平均値を推定した場合、求められた区間の内、19個の区間はその中に真の母数があって、残り1個の区間はその中には真の母数がないっていうくらいの確率ですな。

信頼度はよく$ \alpha $で表されて、0以上1以下の実数で表されます。それに従えば、今回の設定は$ \alpha = 0.95 $ということになります（95%を0から1までの実数で表現しようとすると、0.95となります。1が100%に対応してるわけですな。）。

なので、信頼度は小さいときよりも大きいときの方が、真の母数を含んだ区間になりやすいということになります。

オレンジの重さを測ってみると…？

この節では、オレンジの重さを具体的に決めていきます。実際にはオレンジの重さを測ってやることになります。

10個のオレンジの重さを測ったら次のようになったとします。単位はすべてグラムです。

1 個目：220
2 個目：204
3 個目：206
4 個目：242
5 個目：213
6 個目：259
7 個目：211
8 個目：246
9 個目：237
10個目：214

ここまでで、確率変数が従う確率密度関数、信頼度、実際の標本がはっきりとしました。ここまで来たら、後は計算するだけです。

求めたい区間は標準偏差から求めよう（中心極限定理より）

では、この節から計算を進めていきます。

今回は母集団が正規分布に従い、その平均値が不明で、分散が30であるという状態を設定しました。そのうえで信頼度$ \alpha = 95 $としました。

参考までに、今回の標本が従う確率密度関数を載せておきますと、こんな感じになります。

$$ f(x) = \frac{ 1 } { 30\sqrt{ 2 \pi } } \exp( -\frac{ ( x – \mu )^2 } { 2 \times 30^2 } ) $$

正規分布の式に分散$ \sigma^2 = 30^2 $を代入しただけですな。で、この式の中の$ \mu $が分かんないから、多分この辺じゃなかろうかっていう区間を計算で求めてやりたいわけです。

その区間を計算するときに必要になるのが、前の記事で説明しました標準偏差と確率の関係になります。ざっくりと説明しますと、母平均のプラスマイナス1.96倍の標準偏差の間にデータが発生する確率は95%ですよーって話でした。

その話が推定を進めていく上で必要になってきます。というのも、確率変数$ X $が母平均$ \mu_m $、分散$ \sigma_m^2 $の正規分布に従う場合、標本の平均値$ \overline{X} $もまた正規分布に従うからです。そして、標本の平均値$ \overline{X} $が従う正規分布は、平均値は確率変数$ \overline{X} $と同じく母平均$ \mu_m $、分散は母分散を標本数で割った$ \frac{ \sigma_m^2 }{ n } $の正規分布となります。ただし、標本数nが大きいときに限りますが。

要するに、標本数nが大きいとみなせる場合は、標本の平均値$ \overline{X} $は平均値$ \mu_m $、分散$ \sigma_m^2 / n $の正規分布に従うということですな。このことは証明されて定理になっていて、中心極限定理と言います。

※ 確率変数の分散と母分散とが紛らわしいので、ここでは母分散には$ \sigma_m^2 $というように下に$ m $を付けています。

$ \overline{X} $もまた正規分布に従うので、母平均のプラスマイナス1.96倍の標準偏差の間にデータが発生する確率は95%ですよーって話が適用されることになります。それを式で表してやりますと、こんな感じになります。

$$ \mu – 1.96 \sqrt{ \frac{ \sigma_m^2 }{ n } } \le \overline{X} \le \mu + 1.96 \sqrt{ \frac{ \sigma_m^2 }{ n } } $$

この数式は、$ \overline{X} $は$ \mu – 1.96 \sqrt{ \sigma_m^2 / n } $以上で、かつ$ \mu + 1.96 \sqrt{ \sigma_m^2 / n } $以下であるってことを意味してます。

この式を変形していくことで、区間を求めることになります。

求めたい区間はどの辺りでしょ～か？

では、まず上の節で設定したオレンジの重さの平均を計算してやります。測定結果が

1 個目：220
2 個目：204
3 個目：206
4 個目：242
5 個目：213
6 個目：259
7 個目：211
8 個目：246
9 個目：237
10個目：214

だったので、平均値を計算すると$ \overline{X} = 225.2[g] $になります。標本数は$ n = 10 $で、この標本数を中心極限定理が成り立つほど大きいとみなしてやれば、$ \overline{X} $は平均値$ \mu $、分散$ \sigma_m^2 / n $の正規分布に従うことになります。

そこで、この$ \overline{X} $と$ \sigma_m^2=30^2 $を上の式に代入してやります。すると、次のようになります。2行目は1行目の平方根を外しただけです。

$$ \mu – 1.96 \sqrt{ \frac{ 30^2 }{ 10 } } \le 225.2 \le \mu + 1.96 \sqrt{ \frac{ 30^2 }{ 10 } } \hspace{35pt} (1) \\
\mu – 1.96 \frac{ 30 }{ \sqrt{ 10 } } \le 225.2 \le \mu + 1.96 \frac{ 30 }{ \sqrt{ 10 } } \hspace{35pt} (2)
$$

ただし、知りたいのは平均値$ \mu $の区間なので、この(2)式を変形していきます。まずはすべての辺から$ \mu $を引いて、次にすべての辺から225.2を引いてやります。その操作をすると、次のようになります。

$$ – 1.96 \frac{ 30 }{ \sqrt{ 10 } } \le 225.2 – \mu \le 1.96 \frac{ 30 }{ \sqrt{ 10 } } \hspace{35pt} (3) \\
– 1.96 \frac{ 30 }{ \sqrt{ 10 } } \ – \ 225.2 \ \le \ – \mu \ \le 1.96 \frac{ 30 }{ \sqrt{ 10 } } \ – \ 225.2 \hspace{35pt} (4)
$$

次に、(4)式に-1をかけて、不等号の向きを(4)式までと揃えてやります。すると、次のようになります。

$$
1.96 \frac{ 30 }{ \sqrt{ 10 } } \ + \ 225.2 \ \ge \ \mu \ \ge \ -1.96 \frac{ 30 }{ \sqrt{ 10 } } \ + \ 225.2 \hspace{35pt} \\
-1.96 \frac{ 30 }{ \sqrt{ 10 } } \ + \ 225.2 \ \le \ \mu \ \le \ 1.96 \frac{ 30 }{ \sqrt{ 10 } } \ + \ 225.2 \hspace{35pt} (5)
$$

最後に計算を進めていきます。

$$ 206.6 \le \ \mu \ \le \ 243.8 \hspace{35pt} (6) $$

この(6)式は、とりもなおさず、求めたかった母平均$ \mu $の区間に他なりません。というわけで、この(6)式が母平均の推定結果ということになります。