スポンサーリンク

標準偏差とは何なのか ~真実の嘘にご注意を~

記念すべき最初の解説投稿はTwitterでも投稿していた標準偏差シリーズのまとめになります。いろいろな方にいいねをつけてもらったりして、ほんとにありがたい限りです。
さてさて、ではさっそく本題に入っていきたいと思います。

まず「標準偏差」という概念なんですが、中々分かりづらいかと思います。というのも、私自身は最初はまったく分からなかったからですな(お恥ずかしい限りです)。で、ふと「標準偏差が分かりづらい原因はイメージがしづらい概念だからじゃね?」って疑問を持ったんですな。

ってことで、とりあえず、「標準偏差」ってのがどういうものかについて書いていこうかと思います。「標準偏差って、なんか学校で習ったはいいけど、結局どういうものなのか分からない」って方や「なんで標準偏差って必要なの?」とか感じてる方には特におすすめな記事になるかと思いますんで、よろしくお願いしますー。

標準偏差は一言で言うと、「範囲を表したもの」なんですな。平均値っていう基準があって、その周りのどれくらいの範囲にデータが収まってるかってのを示したものってことです。

例えば、ある友人と12:00集合っていう待ち合わせを何回もしてたとしますよね。で、その友人は時間に厳しい人だったら、5分くらい早かったり遅かったりするかもしれないけど、少なくとも10分も遅れてくることはないだろうって予想できますよね。それで、すべての待ち合わせの内、95%くらいは11:55から12:05の間に集合場所に来てたとすると、待ち合わせで友人が現れる時間は、平均は12:00で標準偏差は大体2.5分ってことになるわけです。(かなりざっくりとした計算です)

つまり、例外もあるけれど、データの大半はこの範囲に収まるってのを表した数値が標準偏差ってわけですな。で、標準偏差を2倍(もっと厳密に計算したい方は1.960倍してください)して、それを平均値に足すと上側の範囲が出てきて、平均値から引くと下側の範囲が出てくるってわけです。

さっきの例だと実際の範囲から標準偏差を出すって言う風に説明とは逆になっちゃいましたけど、平均値が12:00で標準偏差が2.5分なら、友達は95%の確率で11:55から12:05に現れるってことになります。もしも、平均が12:00で標準偏差が5分なら、 友達は95%の確率で11:50から12:10に現れるってことですな。

で、標準偏差の最も嬉しい所は、そういう風に平均値だけじゃ絶対に分からない情報を教えてくれるって所です。平均値が同じデータがあったとしても、標準偏差が違えば全体の性質としてはまったく違うことになっちゃうので。

例えば、今度は友人が2人いたとしますね。2人とも平均は12:00なんですけど、標準偏差が違ってたんですね。片方は時間に厳しい友達で標準偏差が2.5分なんですけど、もう片方は標準偏差が30分だったんです。つまり、片方はプラスマイナス5分の間に来るけど、もう片方はプラスマイナス60分=1時間の間に来るってことです。

この2人の友達を、時間への厳しさが同じ人とは、まぁ思えませんわな。こういうことが分かるってのが、標準偏差のありがたみなわけです。

これだけだと、いまいちピンとこない方もいるかもしれないんで、今度は誰もが経験したことがあるとある例で説明してみます。

学校のテストです。ある先生Aは平均値が欠点よりも+20点になるようなテストを作っていました。別の先生Bは平均値が欠点よりも+5点になるようなテストを作っていました。

さて、この段階で質問ですが、どちらの先生のテストを受けたいと思ったでしょう?

続きますね。先生Aのテストは標準偏差が20となるようなテストだったそうです。先生Bのテストは標準偏差が2となるようなテストだったそうです。

どういうことか分かりましたか?標準偏差が分からない状態では先生Aのテストの方が欠点を回避しやすいと感じますよね?でも、実際には標準偏差も見てみないと欠点を取りやすいかどうかは分からないというわけですね。この記事の考え方通りに考えたら、先生Bの方が欠点を回避しやすそうだからです。

問題は、ほとんどの先生が事前に教えてくれるのはテストの平均値だけって所ですね。だから、もしもまだ学生の方がいたら、先生に「このテストは例年平均値が欠点を上回ってる」みたいなことを言われたら、こう尋ねてみましょう。「じゃあ標準偏差は?」と。

かなりインパクトに残ると思いますよ(笑)

こういうのが標準偏差の何となくのイメージです。 要はデータが固まってる範囲を示してるってことですねー。

これは統計に限った話じゃないんですが、少し情報が隠されただけで印象がまったく変わってくることもあるんで、注意せねばってとこですな。今回の例は学校のテストだったので、故意に情報を隠したつもりはなかったのだろうと思いますが。

てなわけで、標準偏差シリーズの第1回( ブログ版 )はこの辺りにしときます。
ではでは、また次回も暇があればよろしくお願いしますー。

※備考、ここでの話が通用するのは「確率変数の分布が正規分布に従うときだけ」っていう注意点があるんですが、それはまた後日ってことで。

タイトルとURLをコピーしました