
ただいま、Twitterの方で不定期に分散シリーズというのを投稿しております。で、ふとシリーズが終わってからじゃなくて、シリーズが終わる前にまとめを見たいって人もいるんじゃないかな~ってことで、現在やってる分散シリーズを適当なタイミングでブログ記事にしていこうかと思いました。ってなわけで、今回は分散についてのまとめになりますので、よろしくお願いしますー。
「分散」って何なの?
まずは、そもそも「分散」ってどういう概念なの?どういう風に解釈すればいいの?って話題について語ってまいります。
そもそも、分散ってのは標準偏差と一緒でデータのばらつきを表した指標の一つなんですな(標準偏差って何だっけ?って方は、標準偏差とは何なのか ~真実の嘘にご注意を~とか標準偏差 ~範囲が知りたい!~あたりをどうぞー)。そういう意味では標準偏差と分散はまったく変わらないんですよ。イメージで言うと、標準偏差の生みの親が分散って感じです。この記事の後ろの方に計算式というか、計算手順を載せときますが、それを比べてもらうとかなり似てるなってのが理解してもらえるかと思います。
では、次の疑問に参りましょう。「分散と標準偏差はどちらもばらつき度合いを表してるんなら、じゃあ違う所は何なのよ?」というか「機能が同じなのに、両方とも必要なの?片方だけでいいんじゃないの?」って疑問ですな。
分散は物理的には意味が無い
分散と標準偏差の大きな違いの一つはその「単位」です。で、このことは計算式とか計算手順があった方が分かりやすいと思うんで、一応分散の計算手順と標準偏差の計算手順を載せときますけど、「自分、数式アレルギーなもんで数式はちょっと・・・」って方は、とりあえず分散と標準偏差は基本的に同じものだけど、単位が違うんだなー、つまりは、表してるものが違うんだなーってくらいに捉えておいて次の項目に進んで頂いても大丈夫ですー。
では、まずは分散の計算手順から見ていきますねー
分散の計算手順
1、各データから平均値を引く
2、第1で求めた各数値をすべて2乗する
3、第2で求めた各数値を合計する
4、第3で求めた数値をデータの数で割る
これをちょっと小難しく数式で書き直すとこうなるんです。
$$ 分散 = \frac{1}{n} \sum_{i=1}^n (x_i – \overline{x}) $$
で、標準偏差の計算手順はこうでした。具体例は標準偏差 ~範囲が知りたい!~をどうぞ。
標準偏差の計算方法
1、各データから平均値を引く
2、第1で求めた各数値をすべて2乗する
3、第2で求めた各数値を合計する
4、第3で求めた数値をデータの数で割る
5、第4で求めた数値の平方根を求める
これまた小難しく書くとこうなります。
$$ 標準偏差 = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i – \overline{x})} $$
2つを比べていただくと、第5ステップがあるかないか、つまり平方根を取るかとらないかの違いだというのが分かっていただけるかと思います。平方根を取るって計算は単位の次元を2分の1にするので(例えば\( m^2 \)なら\( m \)になります) 、単位が違うものになるってのが分かってもらえるかと思います。
では、単位が違うと何が問題なのかって疑問に参りましょー。
計算不可能!!
単位が違うと、足し算・引き算ができなくなっちゃうっていう決まり事があるんです。詳しくは話題がそれちゃうので省きますが、ざっくりと言うと、面積と速さの足し算とか引き算をやってみたところで特に意味はないよねーって話です。
で、そんな話があるんで、平均値と分散では足し算・引き算ができないって話になっちゃいます。つまり、 ばらつきを知りたいときは毎回毎回平方根を計算しなきゃいけなくなるんで、ばらつきを知りたいってときの指標としては面倒な奴になっちゃうんですな。その点では、2倍して引いたり足したりするだけ(小学校の計算だけ)でデータがどれくらいばらついているのかが分かる標準偏差の方が優れてるわけです。
まとめると
要するに、標準偏差と分散には、平方根を取るのか取らないのかって違いがあって、そのために単位が違って便利だったり不便だったりするんだなってことが分かっていただければ十分かと思いますー。ではでは~。