相関は因果ではない

背景

数字が「一緒に動く」とは何か

この記事は「相関は因果ではない」という有名な格言の話だが、その前にひとつだけ確認しておきたい。相関とは、2つの数字が一緒に動く傾向のことだ。気温が上がるとアイスクリームの売上が増える。身長が高い人は体重も重い傾向がある。一方が上がるとき他方も上がる関係を「正の相関」、一方が上がると他方が下がる関係を「負の相関」と呼ぶ。

この「一緒に動く度合い」を1つの数字で表現したのが相関係数相関係数（Correlation Coefficient）2つの変数の直線的な関係の強さと方向を −1 から +1 で表す数値。+1 は完全な正の相関、−1 は完全な負の相関、0 は直線的関係がないことを示す。だ。1896年、英国の数学者カール・ピアソンが論文「回帰・遺伝・汎交配」の中で一般理論を定式化した。統計学ではこの数値を r という記号で書く。r は −1 から +1 の間を動く。+1 に近ければ「一方が増えると他方も増える」傾向が強く、−1 に近ければ「一方が増えると他方は減る」傾向が強い。0 なら関係はない。

ピアソンの貢献は絶大だった。それまで「なんとなく関係がありそうだ」としか言えなかったものを、数字で測れるようにした。しかし同時に、新しい問題が生まれた。数字が高いと、つい「原因がある」と思ってしまうのだ。たとえば r = 0.95（ほぼ完全な相関）と聞くと、「因果関係に違いない」と感じる人は多い。だが r は関係の強さを測る指標であって、因果を測る指標ではない。

カール・ピアソン

Karl Pearson, 1857–1936

Wikipedia

英国の数学者・生物統計学者。相関係数、カイ二乗検定、標準偏差を確立。1911年にユニバーシティ・カレッジ・ロンドンに世界初の統計学科を設立。

"All causation as we have defined it is correlation, but the converse is not necessarily true, i.e. where we find correlation we cannot always predict causation."

「我々が定義した意味での因果はすべて相関であるが、その逆は必ずしも成り立たない。すなわち、相関を見出したところで常に因果を予測できるわけではない。」

— Karl Pearson, The Grammar of Science, 2nd edition, 1900

ピアソン自身がこの警告を発していた。相関という概念を生み出した本人が、その誤用を恐れていた。だがこの警告は、120年以上経った現在も驚くほど無視され続けている。

なぜ私たちは相関を因果と取り違えるのか

理由は単純で、私たちの脳は「原因と結果」の物語を作るように設計されているからだ。進化の過程で、「あの茂みが揺れた→捕食者がいる→逃げろ」という因果推論ができる個体が生き残った。この推論エンジンは現代でも常に稼働していて、2つの出来事が同時に起きるだけで、原因と結果の物語を自動生成する。

3つ目の「交絡変数交絡変数（Confounding Variable）原因と結果の両方に影響する隠れた第三の変数。AとBに因果関係がないのに相関が生じる最も多い原因。」が特に厄介だ。朝食を食べる子どもは成績が良い、という相関は実際に観察される。しかし毎朝朝食を出せる家庭は経済的・時間的に余裕がある。朝食そのものが成績を上げているのか、家庭環境が両方に影響しているのか。相関係数をいくら眺めてもこの2つを区別することは不可能だ。

よくある誤解

誤解

相関係数が高ければ因果関係がある可能性が高い

実際は

r は関係の「強さ」を測るだけ。r = 0.95 でも偶然の一致はありうる

誤解

相関関係は意味がないので無視してよい

実際は

相関は因果の「手がかり」として極めて有用。科学はここから始まる

誤解

実験すれば因果は完全に証明できる

実際は

倫理的に実験ができない場合が多い。ヒルの基準はそのために生まれた

夏のビーチ。気温が上がるとアイスクリームの売上も溺死者数も増える——しかしアイスクリームが人を溺れさせるわけではない（イメージ）

体験

あなたの直感を試す

これから4つの相関関係を見てもらう。それぞれ「因果関係があるか」を直感で判断してほしい。考えすぎずに選ぶこと。大事なのは正解することではなく、自分の脳がどう反応するかを体験することだ。

✦ Causation Quiz 1／4

「アイスクリームの売上が増えると、水難事故が増える」

米国の複数年のデータで、アイスクリームの売上と水難事故の件数の間に強い正の相関（相関係数 r = 約0.85）が確認されている。

✦ Causation Quiz 2／4

「ニコラス・ケイジの映画出演本数が増えると、プールの溺死者数が増える」

Tyler Vigenの「Spurious Correlations」プロジェクトより。1999年〜2009年のデータで相関係数 r = 約0.67。

✦ Causation Quiz 3／4

「喫煙者は非喫煙者より肺がんになりやすい」

1950年代のDoll & Hillの研究で、喫煙者の肺がん罹患率は非喫煙者の10〜20倍。

✦ Causation Quiz 4／4

「朝食を食べる子どもは学校の成績が良い」

複数の教育研究で一貫して観察される相関。朝食習慣のある子どもはテストの点数が高い傾向がある。

✦ Summary — あなたの回答パターン

ここまでは、提示された相関に対して「因果かどうか」を判断する体験だった。しかし次はもっと根本的な問いを投げかけたい。そもそもグラフで2本の線が同じ方向に動いているのを見ただけで、あなたの脳は「関係がある」と思ってしまわないだろうか？

✦ Spurious Correlation Generator

これからグラフを1つ見せる。
2本の線が描かれている。変数の名前は伏せてある。
直感だけで、「この2つのデータには関係がありそうか」を判断してほしい。

何が起きているのか：グラフで2本の線が同じ方向に動いているだけで、「関係がありそうだ」と感じてしまう——それが人間の脳の初期設定だ。Tyler Vigenは25,000以上の変数から6億以上の組み合わせを計算し、まったく無関係なデータ間にもr > 0.9の相関を大量に見つけた。グラフにすると、どれも説得力があるように見える。これがデータドレッジング（data dredging）の恐ろしさだ。

このクイズとジェネレーターには共通する教訓がある。グラフと統計だけでは因果は判断できない。では、相関から因果を導くには何が必要なのか。

なぜか

煙と癌——相関から因果を証明する闘い

1950年、英国の疫学者リチャード・ドールと統計学者オースティン・ブラッドフォード・ヒルは、肺がん患者と非患者の喫煙習慣を比較する論文を発表した。肺がん患者の中で「一度も喫煙したことがない」と答えた人はわずか0.3%。非患者では4.2%。

しかしタバコ業界はすかさず反論した。「相関は因果ではない」と。皮肉にも統計学の巨人ロナルド・フィッシャーロナルド・フィッシャー（Ronald A. Fisher, 1890–1962）「近代統計学の父」。分散分析やランダム化実験の理論を確立。しかし喫煙と肺がんの因果関係については終生懐疑的で、タバコ業界のコンサルタントを務めた。自身がタバコ業界の側に立った。

オースティン・ブラッドフォード・ヒル

Austin Bradford Hill, 1897–1991

Wikipedia

英国の疫学者・統計学者。近代的なランダム化比較試験を開拓し、リチャード・ドールとともに喫煙と肺がんの関連を実証。1965年に提示した9つの観点は今日も広く使われている。

この状況を打開するためにヒルは1965年に9つの「観点」を提示した。ヒル自身は「どれも因果を確実に証明するものではなく、どれも必須条件ではない」と念を押した。だがこの控えめな枠組みが、観察データから因果を推論するための最も影響力のある指針となった。

ブラッドフォード・ヒルの9つの観点

強さ（Strength）

効果の大きさは十分か

▼

喫煙者の肺がんリスクは非喫煙者の10〜20倍。他の交絡では説明しにくいほど大きい。「コーヒーを飲む人は寿命が長い」のように効果量が小さければ交絡の可能性が高い。ただし——小さいからといって因果がないとは言えない。

一貫性（Consistency）

異なる場所・時期でも同じ結果が出るか

▼

英国、米国、日本、ドイツ——どの国でも同じ方向。男女の別も時代も問わず。何度やっても同じなら因果を支持する強い証拠だ。

特異性（Specificity）

特定の要因が特定の結果に結びつくか

▼

喫煙は肺がんだけでなく心臓病や口腔がんとも関連する。ヒルはこの基準を最も弱いと認めた——1つの原因が複数の結果を持つことはよくある。ただし「肺がんの大半が喫煙者に集中」という逆方向の特異性は因果を示唆する。

時間的先行性（Temporality）

原因は結果より先に起きているか

▼

ヒルが「唯一、必須と言ってよい」と考えた基準。喫煙は肺がんの発症より何十年も前から行われていた。「SNSがうつを引き起こす」なら、SNS使用がうつより前に始まっていたことを示す必要がある。

量反応関係（Biological Gradient）

量が増えると効果も増えるか

▼

1日10本より20本、20本より30本。用量反応関係は因果を支持する。ただし閾値効果（ある量を超えると一気にリスクが上がる）のように直線的でない関係もある。

もっともらしさ（Plausibility）

生物学的に説明がつくか

▼

タバコ煙中のベンゾ[α]ピレンがDNAに変異を起こすメカニズムが後に解明された。ただしヒルは「もっともらしさは当時の知識に依存する」と警告。メカニズムがまだ不明でも因果が存在する可能性はある。

整合性（Coherence）

既知の知識と矛盾しないか

▼

動物実験でも煙に曝した個体に腫瘍が発生し、病理学的にも矛盾なし。ただし革命的な発見は既存の知識と矛盾することもある——保守的すぎる基準にもなりうる。

実験的証拠（Experiment）

介入実験の結果はあるか

▼

禁煙するとリスクが低下することが追跡研究で確認された。「原因を取り除くと結果が減る」は因果を支持する最も直接的な証拠だ。ある食品をやめたらアレルギーが消えた——これは日常版の実験的証拠。

類似性（Analogy）

似た構造の因果が既に知られているか

▼

アスベストと中皮腫など、吸入物質と癌の因果は他にも確認されている。類似例があれば新しい因果も受け入れやすい。ただし前例がないからといって否定する理由にはならない。

すべてを満たす必要はなく、1つ満たしたからといって因果が確定するわけでもない。しかし複数が同時に満たされるとき、「相関は因果ではない」という反論は急速に力を失う。喫煙と肺がんは、まさにそのケースだった。

歴史

相関から因果へ——130年の旅

● 転換点　○ 関連する出来事

1896

ピアソン、相関係数を定式化

積率相関係数の一般理論を確立。2変数の関係を数字で測る時代が始まった。

1897

ピアソン、「擬似相関」を警告

比率を使った相関分析では見かけ上の相関が生じることを指摘。

1921

シューアル・ライト、パス解析を発表

観察データから因果を推論する最初の体系的試み。

1950

ドール＆ヒル、喫煙と肺がんの関連を発表

タバコ業界は「相関は因果ではない」を盾に反論。

1965

ヒル、「環境と疾病」講演

9つの観点を提示。観察研究から因果を論じる最も影響力のある枠組みに。

2000年代

パール、因果推論の数学的枠組みを確立

構造的因果モデルとdo-calculus。2011年チューリング賞。

2014

Tyler Vigen「擬似相関」サイトが話題に

25,000以上の変数を比較し、笑えるほど無意味な相関を可視化。2015年に書籍化。

つまり

「それ本当に原因？」と問い続ける技術

相関と因果の混同は知識の問題ではない。「相関は因果ではない」を知っている人でさえ日常的にこの罠にはまる。なぜなら脳は因果推論マシンであり、2つの数字が一緒に動いているのを見た瞬間に物語を書き始めるからだ。

さらに厄介なのは、この格言が武器として使われることだ。タバコ業界がそうしたように、不都合な科学的知見を退ける万能の盾にもなる。相関は因果ではない——正しい。だが相関は因果の手がかりでもある。

"No, correlation does not imply causation, but it sure as hell provides a hint."

「相関は因果を意味しない。だが、手がかりであることは間違いない。」

— Daniel Engber, Slate, 2012

1. 「第三の変数はないか」と自問する。2つの数字が一緒に動いているとき、「両方に影響する別の何かはないか」を考える。交絡変数チェック交絡変数チェック「この2つに同時に影響する第三の変数はないか」と自問する習慣。因果の早合点を防ぐ最も手軽な方法。だ。これだけで早合点の半分は防げる。

文化への登場

『ザ・ウェスト・ウィング』S1E2のタイトルそのものが "Post Hoc, Ergo Propter Hoc"。Tyler Vigen『Spurious Correlations』（2015年）は擬似相関を笑いに変えたベストセラーとなりデータリテラシー教育の定番に。

2. 「逆もありうるか」と問う。A→Bだと思ったら、B→Aも考える。方向を反転させるだけで物語はまったく変わる。

3. 「実験で確かめたか」を探す。ニュースの「〇〇が△△に効果がある」は観察研究かランダム化比較試験ランダム化比較試験（RCT）被験者をランダムに2群に分け、一方にだけ介入して結果を比較する実験。因果推定の最も信頼性の高い方法だが、倫理的に不可能な場合も多い。か。観察研究なら「因果とは限らない」と注釈を付ける。