スポンサーリンク

”同様に確からしい”と最尤法 ~僕らは何を知りたくてデータを取るか~

記事内に広告が含まれています。

統計学を勉強し始めると必ずと言っていいほど出会う例に、コイントスやサイコロ振り、トランプからのカード抜きといったものが挙げられます。

例えば、コイントスの例であれば、何回も繰り返すと最終的には表と裏の比率が1:1に近づくといったようなことを説明されているかと思います。そして、なぜそう考えられるのかについても説明がされています。

その説明の大半は次のようなものかと思います。

「コイントスの結果には「表」か「裏」のどちらかしかないから、その2つが同じ確率で出ると考えられる(表も裏も出る確率は同様に確からしいと考えられる)。結果として、数回であれば表と裏の比率は1:1から大きく外れることもあるかもしれないけど、何千回、何万回と試行すれば、表と裏の比率は1:1に近い比率になるはずだ。」

そして、コイントスのこの性質から、コイントスの結果は二項分布に従うというような説明があるでしょう。その二項分布を使えば、全部でN回試行したときに、表がx回出る確率はPであるというような説明もされているかと思います。

つまり、この説明ではコイントスの結果が二項分布に従うと考えて、そこからどのような結論が導かれるかを議論しているわけですね。

他の例でも、”同様に確からしい”という考え方を使って、大体似たような説明がされるかと思います。

※(この記事では、「確率”質量”関数」という単語と「確率”密度”関数」という単語をどちらも「確率密度関数」という単語で統一させていただきます。本来ならコイントスなど離散値に対しては「確率”質量”関数」という言葉を、連続値に対しては「確率”密度”関数」という言葉を使うべきでしょうが、この記事の目的は、事象に対して確率を与えるような関数をどうやって求めるかという方法論を説明することにあります。そして、その方法論は離散値でも連続値でも統一的に扱えるため、執筆を楽にするためという僕個人の勝手な要求により勝手ながら「確率密度関数」と表記させていただきます。)

スポンサーリンク

”同様に確からしい”の限界

ところが、ここでは明らかに前提としていることがあります。

それは、「”同様に確からしい”という考え方を使って、正しい確率密度関数を知ることができる」ということです。上に挙げた3つの例のどれもが、”同様に確からしい”という考え方を使って説明されることから、このことが分かると思います。

ところで、統計学が本来対象としている現象のことを思い出してみてください。それは例えば、自動車を持っている一人の人が1年間に起こす事故の回数などのはずです。コイントスやサイコロ、トランプなどはあくまでも統計学の考え方や概念を導入するための都合のいい小道具にすぎません。

統計学の応用対象は本来、現実に発生している現象であるはずです。それは例えば、先ほど挙げた事故数のようなものかもしれませんし、天気予報のようなものかもしれません。

いずれにしても、確率密度関数さえ分かればその現象の発生を確率的に予測することができるようになります。

では、ここで考えてみてください。果たして、そのような現象(自動車を持っている一人の人が1年間に起こす事故の回数など)の確率密度関数を知ることはできるでしょうか?もしできるとすれば、具体的にどういう方法によって知ることができるのでしょうか?

こう考えてみると、確率密度関数を知るということは、言うは易く行うは難しだと分かります。

まず難しさがまだピンと来ないという人のために、少なくとも”同様に確からしい”という考え方では太刀打ちできなさそうだということをもう少し詳しく説明してみます。

実際に起こる現象の場合、起こる結果がコイントスの「表」と「裏」のように単純なものではないと分かります。事象がいくつも考えられる(例えば、自動車で走っている人が”この”交差点で事故を起こす確率、”あの”交差点でこの天気のときに事故を起こす確率、etc. といくらでも考えられます)ため、起こり得る事象をすべて考えて、そのすべての事象に対して同じ確率を割り当てるという方法は上手くいかないと分かります。

他にも”同様に確からしい”という考え方の問題点はあるでしょうが、とりあえずはこれで十分ではないかと思います。

少なくとも、”同様に確からしい”という考え方ではうまくいかないことが分かりましたが、だからと言って確率密度関数を求めることをあきらめるわけにもいきません。

現実的な現象に対しても確率密度関数を求められるような方針と具体的な方法とを考えないといけません。そこで、まずは原理に立ち返って考えなおしてみます。

そもそも知りたいことは何だろうか?

原点に立ち返って考えなおすに当たって、まず皆さんに考えていただきたいことがあります。それは、「そもそも、何が分かれば”確率密度関数が分かった”と言える状態になるのだろうか?」ということです。

そう考えると、まず確率密度関数の要素として次の二つが挙げられることが分かります。

  • 確率密度関数の概形(確率密度関数を表す数式)
  • その数式のパラメータ

ここで言う「確率密度関数の概形」というのは、例えば二項分布であれば\( P(X = x) ={}_n\mathrm{C}_xp^x(1 – p)^{n – x} \)といったような数式のことで、そのパラメータというのは、\( p \)(成功確率)のような数値のことです。

数式とパラメータの2つさえ分かれば、あとは興味のあるxに対して計算すればいいだけなので、確率密度関数が分かったと言えるでしょう。知りたいのは確率密度関数の概形とパラメータだとも言い換えられます。

というわけで、最終目標は「確率密度関数を表す数式を知ること」と「その数式のパラメータを求めること」となります。

ところで、先に”同様に確からしい”という考え方はある意味で確率密度関数を求めるための考え方だと説明しました。ここで、この考え方で求めていたのが、最終目標として挙げた2つの内のどちらを求めるものだったのかを考えてみます。

例えばコイントスの場合は、まずその結果がどうなるかを考えて(結果は「表」か「裏」かのどちらかということでした)、その結果すべてに同じ確率を与える(つまり、「表」と「裏」に1/2という確率を与える)という方法で、事象が発生する確率を考えたのでした。

コイントスの場合、その結果は二項分布に従うことが知られています。具体的な導出を始めると大変なので、導出はまた今度にしますが、コイントスはその結果の性質から二項分布に従うと導出できます。つまり、コイントスの結果というデータがどのような性質を持つことになるかを吟味することで、確率密度関数の概形をある程度推測することができるということになります。

そして、確率密度関数の概形を求めるときには”同様に確からしい”という方法は必要ありません。”同様に確からしい”という考え方で求めているのは二項分布で使うパラメータである\( p \)です。

ここまでの議論のまとめ

ここで、今までの議論を思い出してください。元々は確率密度関数を求めたいけど、”同様に確からしい”という考え方に問題がありそうだということから話が始まったのでした。

そして、確率密度関数を求めるに当たって、まずどうなったら”確率密度関数を求める”なる行為が完了したと言い得るのかを知るために、確率密度関数についての考察をしました。

その考察の結果、確率密度関数には2つの側面があることが分かりました。具体的には、「確率密度の概形(数式)」と「確率密度関数のパラメータ」という2つでした。概形とパラメータは、それぞれ「定性的側面」と「定量的側面」と考えると分かりやすいかもしれません(もし分かりづらければ忘れてください)。

これら2つの側面から確率密度関数を求めれば”確率密度関数を求める”という行為は完了するわけですが、その内の片方「確率密度関数の概形(数式)」については、データの性質から考えて導くことができるということでした。

というわけで、やや天下りにはなってしまいましたが、「確率密度関数の概形」はデータの性質から明らかにできると受け入れてもらえれば、あとは「確率密度関数のパラメータ」を求める方法が分かればいいことになります。

と、このまま続けていきたいところなのですが、気づいたらかなり長い記事になってしまっていたので、最尤法の説明は次回の記事に回すことにします。

というわけで、また次回の記事でお会いしましょう~。ではでは~。

タイトルとURLをコピーしました