スポンサーリンク

シンプソンのパラドックス ~1つのデータ、2つの解釈~

データを集めたり分析したりするのは、その後の行動やら意思決定やらで、より良い選択をするためだということは納得していただけるかと思います。

ただ、実はそのときには注意が必要なんだぞって論文があって、なかなか面白かったので紹介します。

どういうときに注意しなければいけないかってことも書かれてるんで、データを分析される方なら役に立つ論文なのではないかと思います。

今回の論文は、Colin R Blythによる1972年の『On Simpson’s Paradox and the Sure-Thing Principle』という論文です。日本語訳すれば『シンプソンのパラドックスと当然原理』といった感じでしょうか。

このブログでは分割表(複数個のラベルが設定された表のこと)に関する論文として、下の2つの記事を書いていますが、今回の論文も分割表に関する論文です。

ちなみに、シンプソンのパラドックスの”シンプソン”は、この2つ目の記事で解説した論文の著者の名前から取られたものです。

スポンサーリンク

シンプソンによる指摘

まず、論文の表題にもなっているシンプソンのパラドックスについて解説していきます。

そもそも、Simpsonはどんなことを言っていたかというと、分割表のデータをまとめなければ効果が確認されるけど、分割表のデータをまとめると効果が見られなくなる可能性があるよって話でした。具体的には下の表のような感じ。

生はある病気に対する生存者、死はある病気に対する死亡者の数を表していると考えてください。各欄の数値は、観測数/データの総数となっています。

つまり、全体で52のデータ(男性か女性か、処置ありか処置なしか、生存者か死亡者かというデータ)があって、それを集計すると上の表のようになったという状況です。

この表から、

男性で処置しなかった人の中で、死亡した人の割合は約0.429(=3/7)
男性で処置した人の中で、死亡した人の割合は約0.385(=5/17)

女性で処置しなかった人の中で、死亡した人の割合は0.600(=3/5)
女性で処置した人の中で、死亡した人の割合は約0.556(=15/27)

であることが分かります。つまり、処置をしない方が死亡者が増えると言えることになります(処置をした方が生存者数が増える)。

ところが、男性と女性の表を合計するとそうでもなくなります。というのも、上の表を合計すると次の表1-2のようになります。

こちらの表からは、

(性別に関係なく)処置しなかった人の中で、死亡した人の割合は0.5(=6/12)
(性別に関係なく)処置した人の中で、死亡した人の割合は0.5(=20/40)

となります。つまり、処置をしようがしまいが死亡者数に変化はないと言えます(処置をしても生存者は増えない)。

要するに、表を分割しているときに何かしらの効果が確認されたとしても、表を合計するとその効果が消えてしまう場合があるってことですな。表を分割すると効果が確認されるとも考えられますが。

Blythはこのことをさらに掘り下げて考えておりまして、表を合計すると効果が消えてしまうだけでなく、効果が逆転する場合もあるんだよってことを言っています。

そして、その現象を意思決定理論に応用するとどうなるかってのを書いてます(意思決定理論への応用については、本題から外れるのでこの記事では割愛します)。

Blythによるシンプソンのパラドックス

Blythは論文の中で次のような例を使っています(Simpson記事で使った表とは生、死の行が逆になっていることに注意してください)。

ある病気に対して、従来と同じ治療を施した場合と、新しい治療を施した場合とで生存者、死亡者がどれくらいになったのかを表しています。そして、性別と居住地によってデータが分けられています。

先ほどの節と同様に生存率、死亡率を計算してみます。

シカゴに住んでいて従来治療を受けた患者の死亡率は0.95%(=950/1000)

っていう感じで他の生存率、死亡率も計算していくと次のような表になります。

この表を見れば、新治療に比べて従来治療の方が死亡率が高いことが分かります。なので、この表からは新治療の方が良いと言えるでしょう。

ところが、この表を合計すると次の表3-1のようになります。

スポンサーリンク

これだけでは分かりづらいので、こちらも生存率、死亡率を計算してみます。計算方法は先ほどと同じで、

(居住地に関係なく)従来治療を受けた患者の死亡率は約0.54(=5950/11000)

といった感じに計算していきます。生存率、死亡率を表に直してみると次の表3-2のようになります。

こちらの表でも死亡率を比較してみます。すると、従来治療よりも新治療の方が死亡率が高くなっています。この結果は先ほどとは逆になっています。

今までの結果をまとめると次のような感じになります。

 

表をまとめる前は従来治療の方が死亡率が高い
シカゴの患者:従来治療での死亡率=0.95>新治療での死亡率=0.9
シカゴ以外の患者:従来治療での死亡率=0.5>新治療での死亡率=0.05

表をまとめた後は新治療の方が死亡率が高い
従来治療での死亡率=0.54<新治療での死亡率=0.89

(生存率で見ると、各不等号は逆になります)

 

不等号の左側には従来治療での死亡率、不等号の右側には新治療での死亡率を書いていますが、表をまとめる前と後とで不等号の向きが逆になっています。

本質的に同じデータであるにもかかわらず、まったく正反対の解釈が出来てしまうということになるので、できればこういう状況は避けたいわけです。

では、どういう条件のときにこういうことが起こってしまうのかを解説していきます。

と思っていたんですが、予想以上に長くなってしまったんで、条件の話についてはまた今度ということにします。

タイトルとURLをコピーしました