
今回は『NOTES ON THE THEORY OF ASSOCIATION OF ATTRIBUTES IN STATISTICS』という面白い論文があったのでそちらを紹介していきます。日本語に訳すと『統計学における属性の相関の理論に関する注釈』といったあたりになるかと思います。
論文はG. UDNY YULE(これ以降では”ユール”と書きます)という統計学者によるものです。ユール氏(すでに亡くなっています)が書いた統計学の本は、その刊行以来40年にわたって統計学の標準的な教科書だったとか。すごい人っすね~。
この論文では、条件ごとの結果をまとめた表(分割表のこと)について考察されていました。分割表ってのは対照実験をするときなんかに使うやつです(具体例はこの記事を読み進めていただければ分かるかと思います)。
この論文の主張を先に書いておきます。
「各分割表を足し合わせると、条件ごとの結果の比率が変わる可能性がある」ってことと、そこから「比較対象の比率には注意しなければならないという教訓が得られる」って感じのことが書いてありました(後ろで詳しく解説するので、まだ意味不明でも次に進んでいただいて大丈夫です)。
※ちなみに、対照実験ってのは、条件を変えたときの結果を比較して仮説が正しいのかどうかを確認するときに行われる実験です。例えば、ある病気に対する処置をした場合としなかった場合と(条件)でその後の病気の治り方(結果)を確認して、その治り方からその処置が効果的かどうかを判断するときなんかに行われます。
特効薬の効果測定をしたい!という状況を設定
例えば、次のような状況を想定してみてください。
ある国でインフルエンザに対する新しい特効薬が開発されたとします。そして、その特効薬の効果がどの程度なのかを測りたいという話になったとします。その国では早速、特効薬の効果を測るための調査チームが作られました。
調査チームは次のように考えました。「特効薬の効果を測るためには、特効薬を投与”した”ときと”しなかった”ときとで、インフルエンザの治る速さを比較すればいい。ただ、その速さは男性と女性とで差があるかもしれないから、特効薬を投与”した”ときと”しなかった”ときに加えて、”男性”と”女性”という変数も追加しよう。」
※調査チームは何らかの方法で治る速さを「速い」か「速くない」かのどちらかに分類できるものとします。
つまり仮想の調査チームは、特効薬を投与した男性、投与しなかった男性、投与した女性、投与しなかった女性という4つの分類で、インフルエンザが速く治ったか遅く治ったかを調査することにしたというわけです。
ここで、もし「(性別に関係なく、)特効薬を投与した人は速く治って、投与しなかった人は速く治らなかった」というデータがあれば、特効薬に効果はありそうだと言えそうです。反対に、「(性別に関係なく、)特効薬を投与した人は速く治らなくて、投与しなかった人は速く治った」という先ほどとは逆の結果が得られた場合、効果はなさそうだと言えそうです。
つまり、特効薬の性能は、投与した人と投与しなかった人の間で、速く治った人と速く治らなかった人の比率を計算すれば評価できそうです。
なので、次の4つのパターンを計算することになります。
- 特効薬を投与して速く治った人数に対する投与せずに速く治らなかった人数の割合
- 特効薬を投与して速く治った人数に対する投与せずに速く治った人数の割合
- 特効薬を投与して速く治らなかった人数に対する投与せずに速く治らなかった人数の割合
- 特効薬を投与して速く治らなかった人数に対する投与せずに速く治った人数の割合
この場合、特効薬が治りを速くすると言える結果になるのは1番の割合が他よりも高かった場合だけです。2番の割合が高ければ特効薬を使おうが使うまいが速く治るということになりますし、3番の割合が高ければ特効薬を使おうが使うまいが遅く治るということになります。4番の割合が高ければ、特効薬を使うと遅く治るということになりそうです(ウイルスの攻撃を激化する特攻薬として働いたのでしょうね笑)。
ただし、仮想の調査チームは性別も加味しようとしているわけですから、男性でのパターン、女性でのパターンという合計8つのパターンで割合を計算しなければいけないことになります。
そして、調査チームは男女それぞれで1万人(つまり、全体で2万人)を調査して、次の表1のような結果を得たとします(単位は[人]です)。

この表は、特効薬を投与して速く治った男性が2500人、特効薬を投与して速く治った女性が500人、(以下略)存在したということを表しています。
ここで、各条件の中で速く治った人と速く治らなかった人の割合を計算すると、次の表2が得られます。例えば、男性、投与した、速く治ったのセルに入っている数値は2500/(2500+2500)、女性、投与した、速く治ったのセルに入っている数値は500/(500+4500)と計算しました。速く治った人、速く治らなかった人の比率を4つ計算したってことですな。

このデータだけを見れば、男性にしても女性にしても、特効薬の投与と治りの速さには関係がないということが言えそうです。では、上で挙げたパターンを計算してみようというのが次の節です。
この結果を解釈してみると?
では、男女それぞれで4つのパターンの割合を計算してみます。一応、4つのパターンを再掲しときます。
- 特効薬を投与して速く治った人数に対する投与せずに速く治らなかった人数の割合
- 特効薬を投与して速く治った人数に対する投与せずに速く治った人数の割合
- 特効薬を投与して速く治らなかった人数に対する投与せずに速く治らなかった人数の割合
- 特効薬を投与して速く治らなかった人数に対する投与せずに速く治った人数の割合
さて、このパターンに合わせて計算してみると次のような表が得られます。表の作りやすさの問題でパターンの順番を入れ替えていますのでご注意ください(上のパターンの1と2、3と4がそれぞれ入れ替わっています)。

すでに前の節で「男女どちらも特効薬の投与と治りの速さには関係がない」ということがデータから読み取れそうだという話をしました。そして、パターンごとに割合を計算しても同じようなことが言えそうな結果になりました。
さて、ここで仮想の調査チームは次のように考えました。
「ここまでの評価はすべて男女別のデータに基づいて行ったものだ。その評価は男女どちらも特効薬の投与と治りの速さには関係がないという評価になっていた。なら、男女それぞれのデータを足し合わせてしまっても同じような結果が得られるのではないだろうか」と。
さて、それぞれの表を一つにまとめて評価するとどのようなことが起きるでしょうか?
表をまとめて偽の比率
次の表は単純に男性と女性の表を合わせただけです(人数の表を足し合わせました)。

では、この表4で速く治った人と速く治らなかった人の比率を計算してみましょう。
すると、次の表5のようになります(一応、男女別のときの比率も載せています)。計算方法は男女別のときと同じです。例えば、全体の欄、一番左の0.3は3000/(3000+7000)と計算しました。

では、少し考え方を変えて、前節で男女別で計算した各パターンの比率(表3のことです)を合成してみましょう。するとやや妙なことが起こります。
表3の各パターンを足して2で割ると次の表6が得られます(全体で1=100%にするために2で割ります)。具体的な計算は、例えば一番上の0.13なら(0.01+0.25)/2となります。こちらの表もパターンの順番にご注意ください。

この表はつまり、特効薬を投与して速く治った人に対する投与せずに速く治らなかった人の割合が0.13、特効薬を投与せずに速く治った人に対する投与せずに速く治らなかった人の割合が0.17、(以下略)であることを表しています。
ここで、特効薬を投与した人が速く治ったという条件と、特効薬を投与した人が速く治らなかったという条件それぞれの中で、「投与せずに速く治った人」と「投与せずに速く治らなかった人」との比率を計算してみます。例えば一番上の0.43なら0.13/(0.13+0.17)と計算します。すると次の表7のようになります。

先ほどの表5と見比べてみてください。各条件内での速く治った人と速く治らなかった人の比率が変わっています。つまり、相関度合いを見るための指標としていたものが見方によって違っているというわけですな。
この表7から特効薬の効果を解釈すると、「特効薬の投与に意味はないと言える(ただし、表5のときよりも根拠は弱い)」ということになりそうです。
このように、比率が男女を混合した表から計算したときと混合しない表から計算したときとでは変わるというのが、論文で主張されていました。
このことを考えると、データの分割の仕方を変えると比率が変わるから、比率だけから判断するのは危険だよーって話になりそうです。
終わりに
というわけで、データ表を足し合わせると割合が妙なことになっちゃうよーってお話でした。この割合を鵜呑みにしたまま使うと間違った結論を導いてしまうかもしれないんで、データ分析をされる際にはご注意くださいませ~(僕も気を付けねば)。
まぁ、データ分析のお仕事をされてる方はすでに知ってたことかもしれませんが。
今回は論文の紹介ってことで、あくまでも論文の内容を紹介するだけに留めました(例は数字はそのままですが、より身近であろうものに変更しましたが)が、著者であるユール氏は論文にあった例について一連の説明をした後、次のようにコメントしています。
先ほどまでに与えられた計算例をさらに追求してこれらの主張を検証することを、もし読者がその気になるのなら、私は読者に任せる。
George Udny Yule(1903)
なので、皆さんも気が向いたらご自身で例を作って計算してみてはいかがでしょうか。面白い考察ができるかもしれません。
というわけで、今回はこの辺で絞めときたいと思います。ではでは~。