執筆者:柴沼 潤
その結論本当にあっている?統計学に潜む罠!
こんにちは。マーケティングデザインの柴沼です。今回は統計に関する雑学を一つ紹介致します。
雑学といっても、分析を行う人にとっては是非とも知っておきたい知識となっております。様々なデータを見比べながら一つの結論を導き出すとき、今回のようなケースを知っておくことで「真実」を見逃さずに済む、なんてことがあるかもしれません。
そしてデータを様々なステータスで括り、分析を掘り下げていくこと(ドリルダウン)の重要性が分かる記事にもなっております。
是非お読みいただき、分析業務にお役立ていただければ幸甚です。
◆本記事でお伝えする内容◆
・データを大きな塊で見ると全く逆の結論に辿り着く「シンプソンのパラドックス」というものが存在する
・ABテストなどで2つのデータを比較するときにはドリルダウンを行うことが重要
・BIツールにはドリルダウンが簡単に実施出来る機能が沢山
◆目次◆
- シンプソンのパラドックスとは?
- 何故逆転してしまう?
- BIツールを使えば簡単にドリルダウン出来る!
はじめに
前回は分析とは「健康診断のようなもの」であり、日頃から現状を見えるようにしておくことが大事だとお伝え致しました。しかし闇雲にデータをはじき出し、見えた結果から「これだ!」と結論づけてしまうと、まったく逆の結論を導き出してしまう可能性もあります。分析を行う際には、扱うデータについて「どんな特性で括れるか」ということに注意し、その特性も同時にまとめておくのがお勧めです。
今回紹介する「シンプソンのパラドックス」はそのことを意識する上で、非常に良い例となっております。
1.シンプソンのパラドックスとは?
シンプソンのパラドックスとは1951年にE. H. シンプソンによって記述された統計学的なパラドックス(逆説)のことです。文章で説明すると次のようになります。
「母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある」
例を取って説明していきましょう。例えばある大学において「男女での合格率の差」を調べたいとします。
そこで男女毎に受験者数と合格者数を調べ、合格率を比較すると次のような結果が得られました。
女性の合格率が66.7%に対し、男性の方は70%という結果が得られました。
この結果から、この大学においては「男性の方が合格率が大きい」という結論が導き出されます。
果たしてこれは正解でしょうか?
このデータだけを見れば間違いないように思えます。しかし、必ずしもそうとは限りません。
ここでさらに受験者を学部毎に分けて(ドリルダウンして)結果を見ることにします。
実はこの大学には「文学部」と「医学部」があり、その二つの合格率を調べたところ次のような結果が得られました。
なんと両学部ともに、女性の方が合格率が高いという結果が得られました。
そして、この大学においては「女性の方が合格率が高い」が真実になります。
このように特性毎にデータを分割して見ていくと真逆の結論に辿り着くということが起こりえます。
では何故このようなことが起こるのでしょうか。詳しく解説していきます。
2.何故逆転してしまう?
ポイントは次の3つです。
・文学部と医学部では合格率に大きな差がある
・各学部内における男女比が大きくことなる
・統計は「割合の大きな集団」の影響を受けてしまう
まず一つ目ですが、今回の大学では文学部と医学部で合格率に大きな差がありました。男女関係なく学部で括って見ても次のような差が見られます。
そして2つ目ですが、学部毎の男女差が大きく異なりました。
男性受験者の中では、合格率の大きい文学部を受けた人の割合が非常に大きかったのです。
これを全てまとめてしまうと、男性は文学部の合格率の影響を大きく受けてしまいます。
逆に女性は比較的影響が少なく、医学部の合格率の影響が残ります。
比率から全体の合格率を算出すると次のような計算式が得られます。
女性は2:1、男性は6:1の割合に基づいて計算しています。
結果として、全体の割合を見ると男性の方が合格率が大きくなってしまいます。
最初のシンプソンのパラドックスの定義に基づいて今回の例を説明すると
「母集団(受験者全体)の(性別と合格率の)相関は、母集団を(学部によって)分割した集団の相関と異なる」
ということになります。
3.BIツールを使って簡単にドリルダウン!
シンプソンのパラドックスからドリルダウンの重要性が伝わったかと思います。
しかし、様々な特性に分割しながらグラフや表を作り直すのは大変労力がかかります。
BIツールをうまく活用すれば手早くドリルダウンを行うことができ、様々な視点からデータ見ることが出来ます。
こちらは前回の記事にも掲載した分析動画です。
こちらはAmazon社が提供するクイックサイトによるものです。クリック一つでグラフが変化していくのが分かるかと思います。ダッシュボード上のグラフ全てではなく、各グラフ毎に個別にドリルダウンするためのフィルターを設置することも可能です。もちろんTableau CRMでもこのような分析は可能です。
WEBアンケートサービスやCRM(顧客管理)ツールの普及によりデータを収集する機会が増えてきています。これからは分析ツールを巧みに活用し、データから真実を見抜いたものが一歩リードすることになるかもしれません。
最後に
いかがでしたでしょうか。広告業界においても2つの案を同時に実施し、比較しながら最適な広告方法を探る、いわゆるABテストは有用な手法です。ですが得られたデータを一括りにしたままでは誤った結果を導いてしまうかもしれません。「性別」「職業」「世代」など様々な視点からデータを分割することで、本当の答えが見えてきます。
分析業務を行う際には、改めてデータの「特性」にも注目してみてはいかがでしょうか。
高度な分析を実施したい、BIツールの導入したい・活用したいと考えている方は是非マーケティングデザインまでご相談ください。
最後までお読みいただきありがとうございました。