スポンサーリンク

ベイズ論 ~原因追及の統計学~

今回はベイズ論についてのお話です。この前、ベイズ論は頻度論の親戚のようなもので、視点が違っているだけだというお話をしました。詳しくは頻度論とベイズ論の違い ~君は、どこから見ている?~をご参照ください。

視点が違っているとはいっても何となく狐につままれたような感じがしているかと思います。そこで、今回は具体例を挙げながら、ベイズ論のことをもっと説明していきますので、どうぞよろしくお願いしますー。

スポンサーリンク

この人は関西の人?それとも、関東の人?

さてさて、この記事のタイトルは「原因追及の統計学」となっておりますが、その意味するところは「ある結果が起きたとき、考えられる原因が本当に原因である確率を求めることができる統計学」ということになります。説明していきますね。

例えば、ある人(仮にAさんとします)がいたとします。で、そのAさんは関西か関東かのどちらかの人であるというのは分かっていたとします。で、あなたはそのAさんを関西の人なのか、関東の人なのかを見極めたいとします。(どんな状況やねん!と突っ込みたくなる状況ですが、問題を簡単にするために今回は関西の人、または関東の人という2択であることが分かっているとします)

そのとき、関西弁っぽい方言が混じっていれば関西の人、標準語に近いしゃべり方しかしなければ関東の人と、ほとんどの人は予想するかと思います。

そういう予想を数学的にやってやろうというときに有用なのがベイズ統計学になるんです。

関西弁なら関西人?

では、色々と問題設定をしていきましょー。

Aさんが関西か関東のどちらかの人であることは分かっています。で、そもそも全体的な傾向として人を適当に集めたら50%が関西、50%が関東の人になるとします。つまり、適当に人を集めたらその半分は関西人、もう半分は関東人になるって仮定したわけです。

そして、あなたはそのAさんと色々話してるうちに、関西弁が多いことに気付いたとします。そのとき、あなたはこう考えたとします。「今までの経験から、関西弁で話す人は関西人だと思ってまず間違いない。だから、この人はおそらく関西の人だろう。いや、でもちょっと待て。もしかしたら関東の人だけど、関西の友達に影響されて関西弁を多く話しているだけかもしれない。いやいや、関西の人だけど関東の友達としか話していなかったから、ときどき標準語になるのかもしれない」と。そこで、Aさんが関西の人であるという予想はどれくらい信頼できるのか?あるいはできないのかを調べることにしました。

つまり、経験的には関西の人である可能性の方が高いけど、実は関東の人であるという可能性もあるのではないかと悩んでいるわけですね。

ここでは、関西の人の95%は関西弁を使い、関東の人でも2%は関西弁を使うとしましょう。つまり、あなたの記憶の中で関西の人が100人いたとすると、そのうち95人は関西弁を使い、残り5人は関西弁を使わないってことですね。で、関東の人を100人思い浮かべると、そのうち2人は関西弁を使うけど、残り98人は関西弁を使わないってことですね。

問題設定

今までのことをまとめると、

  1. そもそも関西の人と関東の人の割合は1:1である(50%ずつである)
  2. Aさんは関西弁を話す。
  3. 関西の人の95%は関西弁で話し、関東の人も2%は関西弁で話す
  4. だから、なんとなくAさんは関西の人であると予想したい
  5. ただ、関東の人も関西弁を使う可能性があるわけだから、その予想が間違ってるかもしれない
  6. さて、関西の人であるという主張はどれくらい信頼できるのだろう?

って感じですね。

4つの場合分け

さて、上に書いたような条件があった場合、Aさんが関西の人である確率はどれくらいでしょうか?50%?95%?それとも、もっと別の数値?

ってことで、実際に計算していきましょー。

まず、そもそも関西人と関東人の比率は1:1ですから、Aさんが関西弁で話しているということが分からない状態、つまり、上の1.の部分ではAさんが関西人である確率は50%ですね。

次に、関西弁を話すことが分かったわけです。さて、ここで次の4つの可能性が考えられるようになります。

  1. 関西の人であり、関西弁で話している可能性
  2. 関西の人でなく(関東の人であり)、関西弁で話している可能性
  3. 関西の人であり、関西弁で話していない可能性
  4. 関西の人でなく(関東の人であり)、関西弁で話していない可能性

という4パターンです。つまり、関西人であるか関東人であるかという場合分けと、関西弁を話すか話さないかという場合分けをしていて、それぞれパターンが2つずつ考えられるので合計4パターンというわけですね。(面倒なのでやりませんでしたが、表にすると分かりやすいです)

今回の場合、関西弁を話していたわけですから、下二つ、つまり、3番と4番は無視しても大丈夫でしょう。問題は1番と2番の確率がそれぞれどれくらいかということになります。

2つの確率

関西弁を話していて、かつ関西人であるという確率は\( 0.5 \times 0.95 = 0.475 \)となります。

なぜなら、まず関西人である確率が0.5(50%)であり、関西の人で関西弁を話す人は100人に95人という条件があるからです。

ある条件と、別のある条件が同時に成り立つ確率というのは掛け算で求められます。なので、関西人であり、かつ関西弁を話す確率(関西人であるという条件と関西弁であるという条件の両方が成り立つ確率)は\( 0.5 \times 0.95 \)という計算で求められます。

同じように、関東人でかつ関西弁を話すという場合の確率も求めると、\( 0.5 \times 0.02 = 0.01 \)となります。

1つの結論

関西人で関西弁を話す確率は0.475、関東人であり関西弁を話す確率は0.01ということが分かりました。つまり、Aさんが関西人である確率と関東人である確率の比は0.475:0.01だと分かりました。

ただ、それだと少しわかりにくいので、その2つを足して1、つまりは、2つの確率の合計が100%となるように、数値を少し変えてみましょう。

(関西弁を話し)関西人である確率:関東人である確率=0.475:0.01=0.979:0.021

これで、関西人である確率と関東人である確率の合計が1(パーセンテージ表記に直すと100%)となるように調整できました。つまり、関西弁を話すと分かる前は関西人である確率はった後は、Aさんが関西人である確率は0.979(97.9%)、関東人である確率は2.1%であるということになりました。

ベイズ更新

ここで、Aさんが関西弁を使う前と後での確率の変化を見てみたいと思います。

関西弁だと分かる前・・・・関西人:関東人=0.5:0.5=50%:50%
関西弁だと分かった後・・・関西人:関東人=0.979:0.021=97.9%:2.1%

というように、Aさんが関西弁を話す人だと分かると、関西人である確率が高くなったのがお分かりでしょうか?この変化は直観的にも正しいですよね。関西弁を話す人を見かけると「おそらく関西の人だろう」と判断しますもんね。

このように、ある情報が分かってから確率を変化させることをベイズ更新と言います。

※2019/4/4 関東人で関西弁を話す確率を0.02ではなく0.2だとして計算してしまっていたので、0.02として計算し直しました。現在は0.02で計算しなおした結果で書いています。混乱させてしまっていたらすみません。

タイトルとURLをコピーしました