相関係数って概念があって、そいつは2項目間にどういう関係があるのかを表しているスグレモノな概念なのです。そんな相関係数を計算しようとすると共分散って概念に出くわすことになるんですが、こいつがまた色んなとこで活躍するすごいヤツなんです。
ってことで今回は相関係数、共分散って何なのよ?どういう所に出てくるのよ?スグレモノって言ってたけど、どういう点でスグレモノなのよ?って辺りについてまとめていきたいと思います。
順番としては、まず共分散って何?って話で共分散の概要を説明してから、その求め方、問題点について説明していきます。続いて、その問題点を解決したのが相関係数だって話に入って、その求め方までを説明していこうと思っておりますので、どうぞよろしくお願いします~。
共分散は2項目間の関係を表す
さてさて、まずは共分散のお話でございます。
共分散ってのは、ざっくりと言うと、2項目の間にある関係を数値化したものです。片方の数値が大きいと、もう片方も大きくなるのか?それとも小さくなるのか?そのどちらでもないのか?ってのを表したのが共分散です。
つまり、仮に2項目間に比例関係があったとしたら、その増加率ってどれくらいなの?ってのを表したのが共分散になります。2項目間の関連度合いを表したのが共分散であるとも言えますね。
日常生活における、こういうときってそうなるのかな?(例えば、疲れてると眠りやすくなるのかな?本は読めば読むほど記憶に残りやすくなるのかな?みたいな)ってやつをもっと数学的に考えて、数値で表したのが共分散って考えていただければ分かりやすい…かも?
計算式
今回は、IQが高いと中学校での成績はどうなるのかを調べたくて、中学生のIQと中学校での試験の成績ってデータを取ったとしたってのを例にして説明していきます。(IQの値から成績の点数を予測できるのかを調べたいとも言い換えられますね)
上の方で、共分散は2項目間の関係を表したものだってお話をしました。その2項目なんですが、片方をx、もう片方をyっていう風に考えます。今回の例で言うと、IQがxで成績がyです。つまり、グラフがあったとしたら、横軸がIQを表し、縦軸が成績を表すってことになります。
つまり、IQが高いってのは、グラフの右側に点を打つことで表現されて、成績が高いってのは、グラフの上側に点が打たれることで表現されるってことですな。で、その組み合わせによって、あるIQを持った人がどんな成績かってのが表現できると。
さて、ここからは計算式になりますので、数式アレルギーの方は、とりあえず共分散がプラスってのは、片方が大きいともう片方も大きくなるってことを表してて、共分散がマイナスってのは、片方が小さいともう片方も小さくなるってことを表してるんだなってことだけ抑えてもらえれば、次の次の項目まで読み飛ばしていただいても大丈夫です。
共分散の計算式がこちらになります。
各文字の意味を先に説明しておきます。\( s_{xy} \)は共分散、nはデータ数です。\( x_i \)、\( y_i \)は、それぞれx、yのi番目のデータです。つまり、i人目のIQと成績のデータってことですな。上に線があるのは、x、yそれぞれの平均値です。今回の場合なら、\( \overline{x} \)はIQの平均値、\( \overline{y} \)は成績の平均値ってことになります。
$$ s_{xy} = \frac{1}{n} \displaystyle \sum_{i = 1}^n {(x_i – \overline{x})(y_{i} – \overline{y})} $$
i番目のx、yそれぞれの偏差(データから平均値を引いた値)を求める。今回の場合ならi人目のIQ、成績から、それぞれ平均値を引いた値ってことになりますね。次に、i番目のx側、y側の偏差をかけていく。i番目のx、yの積を計算していくわけですから、データ数と同じ数だけ数値が出てくることになります。このステップが終わるとn個の数値が出てくるってことですな。それから、n個の数値を全部足して、最後にデータ数nで割ったら共分散が出てくるよってのが、この式の示す計算手順です。
共分散の意味するところ
データを基に、グラフに点を打っていくと、4種類のデータがあることに気付かれるかと思います。x、yそれぞれの平均よりも上にあるか下にあるかで分けて、さらに平均よりも右にあるか左にあるかで分けると、
- 平均よりも上側にあり、かつ右側にある
- 平均よりも上側にあり、かつ左側にある
- 平均よりも下側にあり、かつ左側にある
- 平均よりも下側にあり、かつ右側にある
って感じで4種類に分類できるというのは納得していただけるかと思います。
この4種類の内、1番と3番に分類されたデータは、偏差の積(上の式でいう所の\( (x_i – \overline{x})(y_{i} – \overline{y} )\)って部分)を計算すると、正の値になります。2番と4番は負の値になります。
図解するとこんな感じ。
で、偏差の積を全部足し合わせるわけですから、図でいう所の右上と左下にあるデータが多いと共分散は正の値になり、反対に左上と右下が多いと負の値になります。
つまり、データが全体的に見て右肩上がりになっていれば共分散は正の値になり、右肩下がりなら負の値に、右肩上がりとも右肩下がりとも言えなければ0に近い値になるってことですな。
三種の傾向
IQと成績の例で言えば、データの傾向として
- IQが高いと成績も高い(IQが高いと成績も高いと予想できるパターン)
- IQが高いと成績が低い(IQが高いと成績は低いと予想できるパターン)
- 上2つのどちらでもないパターン(IQからでは成績が予想できない)
っていう3つのパターンが考えられます。
この内、1番の場合は共分散は正の値になり、2番なら負の値、3番なら0に近い値になります。(右肩上がりなら正、右肩下がりなら負、どちらでもなければ0付近ってのは、なんとなく直観的にもそんな感じがしていいっすね~)
どの程度の関係かは分からない
そういう風に、符号を見れば上の3パターンのどれかが区別できるんですが、問題点がありまして、どれくらい密接に関係してるのかは分からないんですな。
ってのも、共分散ってのは単位の取り方によっても変わってくるんです。今回の例で言えば、偏差値(単位無し)でデータを取るのか、点数でデータを取るのかって感じです。
同じ程度の関連度合いであっても、単位の取り方によってはまったく違う数値になっちゃったりすることもあるんです。そうなると、関連度合いを測る指標としては使えないので、共分散は程度を知るには難があるってことになります。
と、ここまで書いてきたんですが、またまた予想以上に長くなってしまいましたので、この続きはまた次回以降ということにしたいと思います。
まとめ
要するに、共分散は片方が大きくなったときに、もう片方がどうなるのかによって符号が変わって、もう片方が大きくなときは正、小さくなるときは負、どちらでもないときは0になるって性質を持っています。ただ、単位の取り方によって数値は色々と変わっちゃうから、関連度合いを見るには適してないよってお話でした。
また次回以降で、相関係数の話なんかをしていこうと思います。
ってことで、また次回お会いしましょー。ではでは~。
P.S. 最後に、内容がスッと頭に入ってきて分かりやすかった本を紹介しときます~。