統計学では、データを取るときの測り方が重要になってきます。というのも、測り方によってデータが少ない情報しか持たなかったり、反対により多い情報を持ったりすることがあるんですな。で、そのデータが持つ情報量によって統計分析の方法も色々と変わってきます。
なので、データの測り方にはどんな種類があるのか、それぞれがどんな目的で使われるのかは理解しておくのは大事なことかと思います。
というわけで、この記事ではデータの測り方と得られたデータ自体の分類を紹介します。測り方は全部で4種類あって、データの分類は全部で2種類あります。
とはいえ、あくまでも対象をどう測り取って分類するかっていう話なので、この記事で紹介した話が絶対とは限らないと思いますが。
では、見ていきます。
名義、順序、間隔、そして比例
まずは、データをどう測り取るかっていう話を書きます。上でも書いた通り測り方には4種類ありまして、後の方に紹介する尺度ほど、より細かな情報を表現できるという風になっています。
イメージで言えば、長さを測り取る定規の精度が上がっていくような感じです。
1番は1km刻みでしか測り取れなくて、2番は1m刻みで測り取れて、3番は1mm刻み、4番は1μm刻みで測り取れるっていうように、表現できる数値がより細かくなっていくような感じです。
※μmはマイクロメートルと読んで、0.001mmを表す単位です。
ざっくりと0kmから1kmの間と測るより、細かく24.772mmから24.773mmの間と測った方が細かい情報を表現できているので、後ろの尺度で測り取ったデータほどより細かな表現が可能になるってわけですな。
1.名義尺度
単にラベル付けをするためだけに使われる尺度になります。例えば、
あなたの性別は?
1 男 2 女 3 それ以外
みたいなアンケートでのデータ取りが挙げられます。本質はただの分類分けなので、この数字には対して意味がありません。なので、男と女が入れ替わっていたり、負の数が混ざってたり、53万があったりしても問題ないわけです。なので、次のようなアンケートに変えても問題は起きません。
あなたの性別は?
A 女 % 男 530000 それ以外
先ほど挙げた長さの例で言えば、
あなたの好きな長さは?
A 地球二周半分の長さ B 京都の全道路を合計した長さ C ズボンに通すベルトの長さ
みたいなアンケートになります。
(自分で言っておいてナンですが、「好きな長さ」ってなんやねん笑)
2.順序尺度
1番の名義尺度はただラベル付けをするだけが目的でしたが、この順序尺度はラベル付けをした上で、そのラベルに順番も付けることが目的の測り方になります。ランク付けをするための尺度ってわけですな。例えば、
あなたは屋根瓦が好きですか?
1 当てはまる 2 やや当てはまる 3 どちらでもない 4 やや当てはまらない 5 当てはまらない
みたいなアンケート調査が順序尺度になります。こちらは先ほどとは違って、数字には順番があります。数字が小さくなるほど好きで、数字が大きくなるほど好きでないということを表しているからです。なので、数字を入れ替えることはできません。
あなたは屋根瓦が好きですか?
4 当てはまる 5 やや当てはまる 2 どちらでもない 3 やや当てはまらない 1 当てはまらない
みたいに入れ替えると、わけが分からなくなってしまいますよね。ただ、表しているのが順番なので、次のように変えることは可能ではあります。
あなたは屋根瓦が好きですか?
-4 当てはまる -2 やや当てはまる 0 どちらでもない 2 やや当てはまらない 4 当てはまらない
ただ、できるだけ数字の間隔をそろえておいた方がデータを扱うときに楽だと思うので、特別な理由がない限りは普通に12345とかABCDEという風にしておいた方が無難だと思いますが。
こちらも長さの例で言えば、長さのランキングということにでもなると思います。
1位 地球二周半分の長さ
2位 京都の全道路の長さの合計
3位 ズボンに通すベルトの長さ
(実際の関係性は知りませんが)
みたいな感じのデータを得られるのが順序尺度による測り方になります。
3.間隔尺度
2番の順序尺度はただ単にランク付けをするためだけの尺度でしたが、こちらはランク付けをした上で、ランク間の差も測り取るための尺度になります。例えば、和暦とか西暦なんかが挙げられます。
例えば、平成15年と平成30年という数字を見て、平成30年は平成15年から2倍の時間が流れた後の年だと言っても良いものでしょうか?
というのも、平成15年にしても平成30年にしても、地球ができる前から流れている時間に対して、ある特定の時期に平成15年なり平成30年なりという秩序だったラベルを張り付けて分類しているだけにすぎません。そう考えると、平成15年から2倍の時間が流れて平成30年になったとは言えなくなります。
西暦で見ても平成15年が2003年で平成30年が2018年になるので、2倍の時間が流れたとは言えなくなります。
なので、例えば2倍の時間が流れれば生産性が下がるって論文があったとして、そこで西暦なり和暦なりが使われていたら、「それってデータの取り方から間違ってない?」みたいなことになるわけです。
要するに、尺度の測り始めの点が必ずしも0だとは言えないから、数字の差から何らかの考察を導き出すのは論理的に正しい可能性が高いけど、数字の比から考察を導き出すのはそもそも論理的に間違ってるかもしれないよっていう話ですな(データの使い方にもよりますが)。
ただし、注意してほしいのは、時間をデータにすると必ず比に意味のないデータになるわけではないという点です。次で説明しますが、測り始めの点を0だと保証できるような(0だと決めつけることができるような)方法で測れば比から考察を導き出しても問題ないという尺度があります。それが、次の「比例尺度」になります。
4.比例尺度
こちらはランク間の差だけでなく、ランク間の比も同時に測り取るための尺度になります。この記事で挙げている尺度の中では、最も多くの情報量を持たせられる尺度になります。例えば、時刻とか身長、体重なんかが挙げられます。0が開始になっていれば比例尺度だと言えるので、道路の全長も比例尺度になります。
次のようなアンケートを取れば、比例尺度によるアンケートということになります。
あなたはどれだけ睡眠時間を取りましたか?
( )時間
というのも、睡眠時間はどう頑張っても0時間という絶対的な基準を基に数字を回答するしかないからです。尺度の開始点が疑いようのない0で、数値として回答されるということで、4時間の人と8時間の人を比べたとき、8時間の人の方が4時間の人よりも2倍長く寝ているとして考察を進めていっても問題ありません。
例えば、睡眠時間が長い人の方が勉強量が多いって論文があったとして、そこの元データが比例尺度(上のようなアンケート)で行われていた場合は、統計的処理とか他の部分に間違いがある可能性がありますが、少なくともデータの取り方に間違いはなさそうだと考えられます。
もしもその論文の中で、前日の睡眠時間との差を回答させるようなアンケートを取っていた場合、前日の睡眠時間とその日の睡眠時間に差がないというのが0になります。その0は睡眠時間という観点からすれば、絶対的なものではありません。なので、論文での主張にもよりますが、「そもそもデータの取り方が間違ってない?」と疑ってかかった方が賢明だということになります。
データは二分される
質的データ
名義尺度または順序尺度のいずれかで測り取られたデータのことです。ただのラベル付けを目的として得たデータか順番付けを目的として得たデータなので、その数字から考察を導き出すことはできません。
例えば、下のようなアンケートを取って、回答すべての数値の合計を計算したり平均値を取ってみたりしたところで無意味ってことですな(重回帰分析とかするのなら別かもしれませんが)。やるならパン派と回答した人数から考察を導いたりしなければ意味を見出せなくなります。
どっち派?
1 パン派 2 ご飯派
主観的な疲れのレベルは?
1 小さい 2 普通 3 大きい
それと、なんとなく分かるかと思いますが、質的データから量的データへの変換はできません。上の例は
パン派 A ご飯派 B
主観的な疲れ 小さい A 普通 B 大きい C
としたって問題ないわけなので、選択肢の数値はあくまでも本質がラベル付けにすぎないものなので、選択肢の数字自体から考察をしていくのは基本的に不可能ってことですな。
量的データ
間隔尺度または比例尺度で測り取られたデータのこと。質的データとは違って、その回答されたその数字自体から考察を導き出すことができて、質的データに変換することもできます。
例えば、時間のデータを取ったとして、それを00:00から02:59までは分類A、03:00から05:99までは分類Bみたいな感じで、量的データは質的データに変換できるってことですな。
そういった意味で、質的データよりも量的データの方が扱いやすいデータということになります。
何回かこのブログで出てきてるオレンジの重さみたいなデータとか、前に偏相関係数の話をするときに使った厚生省のデータとか、以前に僕が自分自身についての統計を取って分析してみたっていうツイートなんかで使ったのは、こちらの量的データになります。
毎日の読書記録からピアソンの相関係数を計算してみたら-0.188やってんなぁ。うーん、アニメの視聴時間と読書量ってほとんど関係ないんか~。意外。別の指標で計算すると違った結果になりそうやけど笑
ピアソンの相関係数についてはこちらをどうぞ~。https://t.co/cxLUovXdbx pic.twitter.com/5Yv5ozqXNp— データマイナーAkito (@Akito_Dataminer) August 27, 2019
P.S. このツイートの後に、もう一度確認の計算をやってみたら値が違ってたorzみたいなツイートをしてたんですけど、それが間違ってたらしくて、結局相関係数は-0.188でした。まぁ、結局相関はないってことになるんですが。
計算はExcelを使ったんですけど、確認のときはセルの数値のコピー&ペーストが上手く出来てなかったらしいです。
具体的には、データの種類が数値に設定されてるセルの数値を、データの種類が標準に設定されているセルにコピーしようとしたとき、元のセルに小数点以下が表示されていないと、その小数点以下を除いた数値がそのままコピーされてしまうようです。
皆さんもExcelでセルの数値をコピー&ペーストするときはお気を付けくださいませ~。
P.P.S. よく数字に意味がある・ない、数字の間隔に意味がある、比に意味があるみたいな書き方で解説されてる本がありますけど、僕の場合は「いや、数字は数字やろ。数字を使う以上、数字の間隔はできるし、数字の比も考えようと思えば考えられるんじゃないの?」って思っちゃって理解に苦しんだところでした。