
今回は、質問に答える感じの記事になります。って言うのも、ざっくりと言えば「”確率密度”って一体何なの?」ってようなことを聞かれたんで、それに答えていこうと思ったんで。
以前、確率密度については書いたことがあって、確率密度関数についての記事の中で確率密度関数を説明するためには確率密度について分かってないといけないからって感じで、数学的な考え方を使って手短に触れてたんですな。
ただ、ちょっと問題もありまして、確率密度関数をメインの記事にしてしまったせいで、確率密度については大まかにしか触れてなかったんです。そのせいで、そもそも確率密度を分かってる人にしか分からない記事になっちゃってたかもなぁって思い直したんで、今回はちょっと違った角度から解説していこうかと思った次第です。
なるべく数学的な考え方は無くして解説してみたので、統計学の勉強を始めてすぐの人とか、学校の授業を聞いてもいまいちよく理解できなかった、本を読んでも書いてある意味が分からなかったというような方でも読める内容になってるかと思います~。
その代わり、厳密に考えると間違ってるってようなことも結構ありますので、ご注意ください~。
※この記事の最後にまとめとして論理の流れを書いておいたんで、もし分かりづらくなったらそちらを見ながらこの記事を読んでいったら多少は分かりやすいかと思います。
確率密度=面積が確率を表す
では、確率密度とは何なのかって話をしていきます。結論から言えば「確率密度とは、ある数からある数が発生する確率を面積で定義するためのものである」という話になります。
まずは数直線を思い浮かべるところから
「確率密度とは、ある数からある数が発生する確率を面積で定義したものである」ということがどういう意味かを理解するために、まずは下図のような感じで数直線を思い浮かべてみてください。

数直線を思い浮かべてもらったら、次に「確率的に何かの数字が一つ決まるような操作がある」という状況を考えてみてください。抽象的で分かりにくいと感じた人は、例えばある一つのオレンジの重さを測る状況とか、以前紹介したような方法で乱数を発生させる状況なんかを思い浮かべて読み進めてみてください(もちろん、それ以外の状況でもオッケーです)。
つまり、その操作をすれば数直線上に表すことのできる数字のどれかが一つだけ決まるってことですな。
ただし、その数字は必ずしも-2とか5みたいな整数だけとは限らないって所には注意してください。「何かの数字」としか言っていない以上、もしかしたら操作をした結果が-11.23とかπ(円周率)みたいな数字になる可能性もあるからです。
数直線と確率
ここで、仮に-1.1から2.3までが出る確率が100%だったとします。つまり、その操作をした結果は必ず-1.1から2.3までの数のどれかに決まって、-1.3とか5.8とかには絶対にならないってことですな。
そのことを直観的に分かりやすくするために、先ほどの数直線にちょっとだけ書き足してみます。具体的には、数字に対応する確率を書き込んでみます。すると、次のような感じになります。

数直線に、確率と範囲を書き込んでみました。ただし、今回は数字の範囲とそれに対応する確率が一つだけだったので特に問題がありませんでしたが、範囲がもっと細分化されたり、広くなったりするとこの書き方では表せなくなってしまいます。
試しに、-1.1から-1.0988までの数が発生する確率は○○%で、-1.0988から-1.0976までの数が発生する確率は○○%で、・・・って具合に1000個の範囲に違った確率が対応してるってことを表さないといけない場合を考えてみてください。上の書き方で表そうとすると、とんでもない時間と労力が必要になることが想像できるかと思います。
仮に表せたとしても、今度は読み取るのがとても大変になってしまいます。
数直線と確率の関係をグラフ化してみよう
そこで、そういう大変さを解消するために、グラフを使ってみます。とはいえ、数直線が一本だけだと確率を表すことが出来ないので、下図のように垂直な数直線を書き足してやります。

そして、元々あった数直線(横軸)は今まで通り発生する数字を表す数直線であるということにします。要するに、今まで通りに発生する数字の範囲を表せるよってことですな。そして、その範囲の数字が発生する確率を面積で表すということにします。
なぜ確率を面積として表すの?って所に関しては、「理由は分からないけど、とりあえず確率を面積で表すことにしたんだな」って思っておいてください。
統計学は本来、確率を議論する学問です。なので、確率を求められる必要があります。ただしたった今、「確率は面積で表す」という決まり事を作りました。つまり、確率を求めるためには面積を求められる必要があるということになります。
面積を求めるには、底辺と高さが必要になります。底辺に当たるものは横軸で表されます。そして、高さに当たるものが”確率密度”と呼ばれる数値になります。この確率密度は新しく追加した数直線(縦軸)が表す数値ということになります。
次からもうちょい具体的なことを説明していきます。
つまり、”確率密度”って?
ここまでの話をまとめてグラフに表すと次の図のようになります。

ちょうど面積が100%を表すように四角形を書き加えました。この四角形の面積が確率で、その確率に対応する縦軸の値が確率密度になります。
つまり、この場合の確率密度は0.294です。さて、ではこの0.294という数値に関してちょっと注意点があります。
実はこの新しく書き加えた四角形なんですが、ちょうど面積が1になるように高さを設定してあります。実は100%に対応する面積は1であるっていう統計学上のルールがあるんですな。
なので、四角形の面積が100ではなく1となるように縦軸を取ってやる必要があったんです。
つまり、確率密度は四角形の面積(確率)が1となるように決めなければならないということになります。というわけで結局のところ、確率密度とは何かというと、確率をグラフ上で面積として表すために必要な概念であるということになります。
まとめ
というわけで確率密度について説明してきたわけですが、この記事の論理の流れをざっくりとまとめておきたいと思います。
- まず、ある一つの数が発生する確率というものを考えてやります。
- 次に、その確率をグラフで表してみようとします。そのときに、グラフの面積が確率を表すようにグラフを描きます。
- その面積を求めるのに必要なものを考えます。すると、その必要なものは”底辺”と”高さ”の2つだと分かります。
- このうち高さに当たるものが確率密度になります。
- つまり、確率密度は確率をグラフ上の面積として表すのに必要な概念なんだ!
という感じです。
確率密度って概念が分かりづらいって方は、「確率密度とは何を表すものなのか」ではなく、この記事みたいに「確率密度はなぜ必要なのか」を考えてみちゃいかがでしょうか。
というわけで、今回はこの辺で終わっとこうかと思います~。確率密度について、イマイチよく分からないなぁって方の助けになれば幸いです。ではでは~。
P.S.
分かりづらいことがあったらどんなことでも質問してみてくださいませ~(もちろん、無理強いはしませんが)。このブログの読者の皆さんには、こういう感じで別の解説記事を読めるようになるってメリットがありますし、僕には理解を深める助けになるってメリットがあってwin-winですので。
というわけで質問者さん、ありがとうございました~。