まえがき
こんにちは、さつま芋です。
今回は、統計の盲点である「シンプソンのパラドクス」に触れてみます。
シンプソンのパラドクス
シンプソンのパラドクスとは、データの集計方法によって結果が異なることを示しています。
イメージ図を見てもらうと次のような感じです。
各グループを個別に見ると各々は右下に傾いていていますが、全体を見ると右上に傾いているような状態です。
データの集計方法によって結果が異なる可能性は知っておくべき注意点だと思います。
シンプソンのパラドクス具体例
典型的なシンプソンのパラドクスは男女別の治療効果です。
性別ごとの結果と全体の結果が異なるような事例が有名です。
また、FXの過去検証でも注意は必要だと思います。
集計方法が異なれば結果が逆転することは日常茶飯事です。
例えば、水平線で反発する場合でも、朝の反発、昼の反発、夜の反発で個別に集計した場合と全体を集計した場合では異なる結果になることもあります。
もっと具体的に、ある水平線を検証した結果が次のようだったとします。
反発(回数) | 通過(回数) | |
---|---|---|
朝 | 47%(141) | 53%(159) |
昼 | 50%(100) | 50%(100) |
夜 | 56%(56) | 44%(44) |
全日 | 49.5%(297) | 50.5%(303) |
このように、同じ水平線でも集計方法が異なれば、結果が異なることもあります。
あとがき
個人的に興味深い話だと思ってシンプソンのパラドクスを紹介してみました。
もし宜しければ、皆さんの感想をコメント欄にお寄せください。
以上、さつま芋でした。