ベイズの定理とは？～過去から学べる統計学～

当ブログではたまにベイズ統計学を扱っております。具体的には下に挙げた記事みたいな感じ。で、今回もベイズ統計学の話になります。

色々と言ってたんですが、そういえばベイズの定理をテーマに数式的な解説記事は書いてなかったよなぁと思いまして、また新しくベイズ記事を書こうと思ったのです。と、いうわけで今回はベイズの定理って何よ？ってことと、どうやって使うの？って辺りを説明してみました。

ベイズの定理とは？
条件をデータに、事象を仮説に

ベイズの定理とは？

まず、ベイズの定理ってのはざっくりと言えば、「条件付き確率を求められますよー」って定理のことです。数式で言うと下の（1）みたいな感じ（文字の意味は数式の下に書いています）。

$$ P(B \mid A) = \frac{ P(A \mid B) P(B) } { P(A) } \hspace{25pt} (1) $$

$ A $と$ B $は事象を表していて、$ P() $は確率を表していて括弧の中に入ってる文字で何の確率かを表しています。$ P(B \mid A) $は事象Aが起こったという前提の下でBが起こる確率を、$P(A \mid B)$は事象Bが起こったという前提の下でAが起こる確率を表しています。$ P(B) $と$ P(A) $はそれぞれ事象Aが起こる確率と事象Bが起こる確率を表しています。

まとめるとこんな感じです。

$ P(B \mid A) $・・・事象Bの起こる確率（ただし、事象Aが起こった上でという条件付き）
$ P(A \mid B) $・・・事象Aの起こる確率（ただし、事象Bが起こった上でという条件付き）
$ P(B) $・・・事象Bの起こる確率
$ P(A) $・・・事象Aの起こる確率

これらの確率の中には、ベイズ統計学においては特別な呼び名が与えられてるものもあるので、そちらもまとめておきます。

$ P(B \mid A) $・・・Bの事後確率
$ P(A \mid B) $・・・尤度（Aの事後確率）
$ P(B) $・・・Bの事前確率

次の節で、ベイズの定理はどうやって使うの？ってことを解説していきます。

条件をデータに、事象を仮説に

上の節でも解説しましたが、ベイズの定理と言うのはある事象が起こったという前提条件の下で、また別の事象が起こる確率はどれくらいか？という条件付き確率を求める定理のことでした。それを次のように解釈しなおしてやります。

「あるデータが取れるという事象が起こった」という前提条件の下で、「ある仮説が正しい」という事象が起こる確率はどれくらいか？

もうちょっと言い換えると、あるデータが取れたとき、ある仮説が正しいという確率はどれくらいか？となります。

つまり、実際に取れたデータから仮説の正しさを確率で示すことができるというのがベイズの定理ということになります。

上の節の数式(1)でいうところのAを実際に取ったデータ$ D $に、Bをある仮説$ H $に置き換えてやります。

$$ P(H \mid D) = \frac{ P(D \mid H) P(H) } { P(D) } \hspace{25pt} (2) $$

この(2)が表していることは、数学的には(1)とまったく変わりません。ただ、文字に意味が与えられたことで多少は解釈しやすくなったのではないでしょうか？

これだけだとまだ、なんのこっちゃ？って感じだと思うので、具体例を使って説明していきます。

例えば、オレンジに良いオレンジと悪いオレンジという2つの分類があったとします。そして、オレンジが採れたら必ずそのどちらかに分類されるとします（どちらでもないとかどちらともいえるみたいな分類はなしってことにします）。

オレンジの収穫をしているとき、今採れたオレンジが良いオレンジである確率を求めたいとします。その場合、最大の直径みたいな重さとか最大の直径から経験的に判断することになるでしょうが、重さとか最大の直径みたいなオレンジの特徴をひっくるめて「今採れたオレンジのデータD」とします。そして、「そのオレンジが良いオレンジである」というのを仮説Hとします。

すると、(2)式から良いオレンジである確率$ P(H \mid D) $は、$ P(D \mid H) $（良いオレンジ全体からそのデータが取れる確率、ここで言う「良いオレンジ全体」というのは理論上の推定値も含みます）、$ P(H) $（そもそも仮説が正しい確率）、$ P(D) $（そのデータが取れる確率）という3つの確率から計算できるということになります。

その3つの確率というのは既知の値に出来ます。

オレンジに関する大量のデータを取って、オレンジの母集団を推定しておけば$ P(D) $は求められます。同じように、$ P(D \mid H) $もまた、良いオレンジ全体を母集団にして推定しておけば求めることができます。残った$ P(H) $ですが、こちらは仮説がそもそも正しい可能性なので、同じく、過去に大量のデータを取っておけば推定できます。

このようにして、$ P(H \mid D) $（事後確率）、つまり、仮説HがデータDが取れたときに発生する確率が求められることになります。繰り返しになりますが、仮説Hは「そのオレンジが良いオレンジである」でしたから、データDを持ったオレンジが良いオレンジである可能性を求められることになります。

※以下の数値はデタラメです。

例えば、今重さ247g、最大の直径13.7mmのオレンジが採れて、過去のデータからそのオレンジが良いオレンジだと分類される確率$ P(D \mid H) $は32%だとします。そして、そもそも良いオレンジが採れる確率$ P(H) $が20%で、重さ247g、最大の直径13.7mmという特徴を持ったオレンジが採れる確率$ P(D) $が87.2%だと過去のデータから推定されていたとします。

その場合、今採れたオレンジ1つが良いオレンジと分類される確率は次のように計算されます。

$$
\begin{equation}
\begin{split}
P(H \mid D) &= \frac{ P(D \mid H) P(H) } { P(D) } \\
&= \frac{ 0.32 \times 0.20 } { 0.872 } \\
&= 0.073 \\
&=7.3\%
\end{split}
\end{equation}
$$

つまり、そういうデータが取れるようなオレンジは過去のデータから考えて7.3%の確率で良いオレンジだと分類できるわけですな。

データが取れるまでは、どのオレンジも良いオレンジと分類される確率が20%だとしか判断できませんでした。なので、今採れたオレンジも20%の確率で良いオレンジだと分類されるだろうという予想しかできませんでした。

しかし、今採れたオレンジが持っている固有の特徴と過去のデータから、20%ではなく7.3%であるというように、確率が引き下げられました。

ベイズの定理を使えば、このように過去のデータから個別の事例に対して予測ができるということですな。

この考え方を応用したのが、以前の関西人と関東人の判別になります。もしも、もうちょっと妥当性のある数字を使って解説してほしいって方がいらっしゃったら、そちらの記事もあわせてご覧くださいませ～。

P.S. 本当はベイズの定理を導出しようと思っていたんですが、書いる内にかけ離れた記事になっちゃった上に長くなっちゃったんで、導出はまた今度にします。