今回は相関係数についてのお話になります。ざっくりと言っちゃうと、関係度合いを表した指標です。
2つの変数同士がどう関係しているのかを知りたいときは共分散を計算するだけでも十分なんです。共分散を計算すれば、とりあえず右肩上がりなのか右肩下がりなのか、どちらでもないのかってとこは分かります。(そういう性質があるので、ちょっとだけ計算を追加してやれば未知のデータを予測する(単回帰分析)みたいなこともできました)
ただし、共分散には問題がありまして、2つのデータがどの程度関係しているのかを見たい場合には不向きなんですな。共分散を計算するときに単位が違ってると計算結果も違ってくるんです。なので、「どの程度」っていう度合いを見るには不向きなんです。
どの程度の関係があるのかを知りたいだけなのに、わざわざ単回帰分析の計算をするのも面倒です。関係度合いを見たいだけなら相関係数を計算すれば十分です。今回は、そんな相関係数のお話でございます。どうぞ、ごゆっくりお楽しみください。
共分散とは違って「度合い」を表す
そもそも相関係数って何よ?ってお話にございます。
共分散というものがおりまして、共分散ってのは相関の大小を比べたいときにはもってこいな指標になっておりました。2変数の偏差を出して、全部足し合わせる。最後に足した数で割ってやれば、共分散の出来上がり。分かりやすくて優秀な奴です。
ところが、相関度合いを見たいとなったら共分散じゃ太刀打ちできません。単位の問題があるからです。共分散の計算ではxとyという2つの変数がありました。例えば、道路の直線距離が長いほど車の速度が速くなるって傾向を見たくて、共分散を計算したとします。そこで、問題が出てくるんですな。
直線距離の単位としてkmを使ったときとmを使ったときを考えてみましょう。1000[m]=1[km]ですから、数字だけで見ると1000倍の差が出てきます。共分散でも同じことが起こりまして、単位としてkmを採用したとき、mを採用したときとでは1000倍の差が出てきてしまうんです。
仮に、kmで計算した共分散が2だったとしましょう。すると、mで計算した共分散は2000になってしまいます。同じ相関度合いを示しているにもかかわらず、これだけの差が出てしまってはちょっと使いづらいです。
(計算式を見ながら考えたいという方のために、一応載せておきます~)
$$ 共分散s_{xy} = \frac{1}{n} \displaystyle \sum_{i = 1}^n {(x_i – \overline{x})(y_{i} – \overline{y})} $$
相関係数の計算方法
では、単位が変わっても同じ数値になってほしい。そんな要望に応えられる指標はどうやったら計算できるの?って話です。
では、計算式の方から。
相関係数はxとyの関連度合いってことで、\( r_{xy} \)ってことにします。で、\( s_{xy} \)がxとyの共分散、\( s_x \)と\( s_x \)がそれぞれxの標準偏差、yの標準偏差です。
$$ 相関係数r_{xy} = \frac{s_{xy}}{s_x s_y} $$
xとyの共分散、各々の標準偏差を計算しておいた上での計算式になります。
計算式の意味するところは、共分散を両方の標準偏差で割った数値を相関係数と定義しますよってことになります。
どれだけばらついてるかって指標と右肩上がりか下がりかって傾向を表す指標から、より詳しい関連度合いが計算できるってのはなんとなく納得しやすいですね~。
ベクトルで表すと(ベクトルアレルギーの方は飛ばしても大丈夫です)
他にも、線形(線型)代数で出てくるベクトルを利用すると、こんな風にも表せます。
$$ 相関係数r_{xy} = \frac{ \vec{x} ・ \vec{y}} {|\vec{x}| |\vec{y}|} $$
ただし、ここでいう\( \vec{x} \)と\( \vec{y} \)はそれぞれxの偏差を1番目からデータの数だけ並べたベクトル、yの偏差を1番目から順に並べたベクトルです。
ちなみに、この計算は内積になってるので、相関度合いを\( cos \theta \)に置き換える操作をしてるとも言えます。そう考えると、相関係数は-1から1の間の実数しか取らないって話も理解しやすいのではないでしょうか。
相関係数の読み方
相関係数が何者かって辺りはご理解いただけたかと思います。
ってことで、相関係数の性質とそのあたりの用語をまとめときます。
相関係数は-1から+1の間の実数になります。-1に近いほど右肩下がり、+1に近いほど右肩上がりって覚えといてもらえれば大丈夫かと思います。で、右肩下がりのことを負の相関がある、右肩上がりのことを正の相関があると言います。
0に近いとあまり相関が見られない、つまりは、片方の変数でもう片方を説明することはできないってことになります。0に近いときのことを無相関って言います。
まとめ
猫かわいい。
じゃなくて、まとめです。
共分散からはどの程度の関連性なのかは読み取れない。そこで、相関係数を導入しました。相関係数を計算したいときは共分散をxとy両方の標準偏差で割りましょう。相関係数は-1から+1の間に収まりますよ。って辺りのお話でした。
今回説明したのはピアソンの相関係数とかピアソンの積率相関係数とか呼ばれる相関係数です。ここで説明した以外にも、色々と重要な性質があったりとかするのですが、一度に書くと混乱しないかと思ったので今回はこれだけです。ではでは~。
P.S. 今回の例で挙げた「車の速度」と「直線距離」みたいに両方が数字で表されるときはそれでいいけど、じゃあ「車の種類」みたいな数字では表されない変数との相関を見たいときはどうすればいいの?ってあたりは以下の書籍をご参照くださいませ~。