前回記事では、分割表を合成することで発生する問題に関して、Simpsonによる指摘(1951年の論文)と、Blythによる指摘(1972年の論文)に触れました。
Simpsonは分割表のデータを足し合わせることで効果が確認できなくなる可能性があると指摘していました(なので、何が正しいデータの解釈になるのだろう?ってことを言ってた)。
それに対してBlythは、Simpsonの使った例とはまた違った例を使って、分割表の足し合わせによって効果が確認できなくなるだけでなく、効果が逆転することもあるよってことを言っていました。
イメージとしては次のような感じ
Simpson(1951):合成前は効果あり、合成すると効果なし
Blyth(1972):合成前は効果あり、合成すると”逆の”効果あり
直観的には、もし本当に効果があるんだとしたら、表を合成しようとしまいと常に効果があるという結果になりそうなのに、実際はそうじゃないんだよってのが面白いところ。
で、今回はどんな条件がそろうとデータの合成前と後で効果が逆転(数値上は)するって現象が発生するのかについてまとめていきます。
データの数は同じくらいにしよう
シンプソンのパラドックスは、表のある部分間に大小関係があると起こります。そのある部分というのを説明するために、次のような分割表を考えます。
このA’、B’、C’は、それぞれA、B、Cの否定だと考えてください。前回記事の例(A=生存者、B=新治療、C=シカゴの患者)を当てはめてみると次のような感じになります。
この内、「Cの中でのAの割合が、C’の中でのAの割合よりも極端に大きくなる」、「Cの中でのBの割合が、C’の中でのBの割合よりも極端に小さくなる」かのどちらかの条件が満たされた場合、シンプソンのパラドックスが起こります。
ちょっと数式っぽく表すとこんな感じ。
$$
\begin{equation}
\begin{split}
( Cの中でのAの割合 ) &>> ( Cの中でのA’の割合 ) \\
( Cの中でのBの割合 ) &<< ( Cの中でのB'の割合 )
\end{split}
\end{equation}
$$
さらに数式化するとこんな感じ。
$$
\begin{equation}
\begin{split}
P( A|C ) &>> P( A’|C ) \\
P( B|C ) &<< P( B'|C )
\end{split}
\end{equation}
$$
この条件は、表1に出てくる文字を使って書きなおせば次のようになります。
$$
\begin{equation}
\begin{split}
\frac{ b + d }{ a + b + c + d } &>> \frac{ f + h }{ e + f + g + h } \\
\frac{ c + d }{ a + b + c + d } &<< \frac{ g + h }{ e + f + g + h }
\end{split}
\end{equation}
$$
条件の正当性を具体例から確かめてみる
シンプソンのパラドックスが起こる条件が分かったところで、Blythが使った例以外の表を作ってみます。例えば、次のような感じの表になります。こちらの表3-1は上で解説した条件を満たしています。
この表から生存率と死亡率を求めてたのが次の表3-2。
この表3-2からは、従来治療は死亡率が高いので、新治療に切り替えた方が良さそうってことが言えます。
そして、表を合成してシンプソンのパラドックスが起こるかどうかを確認してみます。上の表3-2を合成したのが次の表4-1になります。
こちらも生存率と死亡率を求めて次の表4-2にまとめました。
こちらの表からは、新治療の方が死亡率が高くなっていることが分かります。なので、従来治療のままの方が良さそうと言えます。
ということで、めでたく(?)シンプソンのパラドックスが起こりました。
では反対に、上で解説した条件を満たさなければ、シンプソンのパラドックスは起こらないのかを確認してみます。
具体例として、次のような表5-1を考えてみます。こちらは、上の条件を満たしていません。
まず、死亡率と生存率を求めてみます。その結果が次の表5-2です。
この表からは従来治療は死亡率が高いことが分かります。なので、新治療に切り替えた方が良さそうだと言えます。
こちらの表もシンプソンのパラドックスが起こるかどうかを確認してみます。というわけで、表を合成したのが次の表6-1。
この表から、死亡率と生存率を求めたのが次の表6-2。
こちらの表からも、従来治療の方が死亡率が高いことが分かります。なので、新治療に切り替えた方が良さそうだと言えます。
というわけで、上の条件を満たしていなければ、シンプソンのパラドックスが起こりませんでした。
実際に、数式変形でも上の条件の妥当性が確認できます。
Simpsonの使った例は?
一応、Simpsonの使った例を確認してみます。Simpsonの使った例は次の表7のような例でした。
では、次の条件を満たしているかを確かめてみます。
$$
\begin{equation}
\begin{split}
\frac{ b + d }{ a + b + c + d } &>> \frac{ f + h }{ e + f + g + h } \\
\frac{ c + d }{ a + b + c + d } &<< \frac{ g + h }{ e + f + g + h }
\end{split}
\end{equation}
$$
というのが条件でした。これら2つの式の両辺の数値を求めます。
$$
\begin{equation}
\begin{split}
\frac{ b + d }{ a + b + c + d } &= \frac{ 3+5 }{ 4+3+8+5 } = 0.4 \\
\frac{ f + h }{ e + f + g + h } &= \frac{ 3+15 }{ 2+3+12+15 } = 0.56 \\
\frac{ c + d }{ a + b + c + d } &= \frac{ 8+5 }{ 4+3+8+5 } = 0.65 \\
\frac{ g + h }{ e + f + g + h } &= \frac{ 12+15 }{ 2+3+12+15 } = 0.84
\end{split}
\end{equation}
$$
というわけで、Simpsonの使った例も条件を満たしていることが分かりました。
※当然ながら、ブライスが論文の中で使った例も上で解説した条件を満たしています。
まとめ
というわけで、
$$
\begin{equation}
\begin{split}
P( A|C ) &> P( A’|C ) \\
P( B|C ) &< P( B'|C )
\end{split}
\end{equation}
$$
が満たされたときに、シンプソンのパラドックスが発生しちゃうんだよーってお話でした。
この論文から言えることは、極力データ数が同じくらいになるようにデータを集めましょう、それが無理だったら、データをどう解釈すればいいかよく考えましょうって話になるでしょうな。
まぁ、実際のデータ分析(年齢別の顧客の行動調査とか)を考えたら、データ数を同じくらいにするのは基本的に不可能な気がするんで、どう解釈するかに力を注いだ方が現実的な気はしますが。
P.S. どうやら、この”どう解釈すればいいか”に関しては、次の2つの本に詳しく書かれてそうな感じがあったんで、買って読んでいこうかと思ってるところです。こういう話に興味のある方は読んでみてはいかがでしょうか。