科学と文化
2つの数字が一緒に動く。それだけで、私たちはつい「原因」を見つけた気になる。だが、数字の背後にある物語は、ほとんどの場合、私たちが勝手に書いたものだ。
カール・ピアソンが相関係数の一般理論を定式化し、変数間の関係を数値で測る方法を確立した。
同年の世界:第1回近代オリンピックがアテネで開催。ヘンリー・フォードが最初のガソリン自動車「クアドリサイクル」を完成させた。
あるニュースを読んで、「朝食を食べる子どもは成績が良い」と知った。なるほど、と思って翌朝から子どもに朝食を出すようにした。あるいは「運動している人は年収が高い」と聞いて、ジムに通い始めた。グラフを見ると、たしかに2本の線は同じ方向に動いている。
こういう場面は日常にあふれている。テレビの健康番組、ビジネス書の成功法則、SNSで流れてくる「〇〇な人は△△しがち」という投稿。数字が2つ並んで同じ方向を指しているとき、私たちの脳は自動的に「原因と結果」の物語を書き始める。
その物語は、ほぼ間違っている。相関と因果は別物であり、その違いを理解しないまま判断を下すことの危険は、現代においてかつてないほど大きくなっている。
2つの数字が一緒に動いているグラフを見せられたとき、あなたの直感がどんな物語を書くかを体験する。その直感がなぜ生まれるのか、なぜ危険なのかを、130年の統計史を通じて辿る。
この記事は「相関は因果ではない」という有名な格言の話だが、その前にひとつだけ確認しておきたい。相関とは、2つの数字が一緒に動く傾向のことだ。気温が上がるとアイスクリームの売上が増える。身長が高い人は体重も重い傾向がある。一方が上がるとき他方も上がる関係を「正の相関」、一方が上がると他方が下がる関係を「負の相関」と呼ぶ。
この「一緒に動く度合い」を1つの数字で表現したのが相関係数相関係数(Correlation Coefficient)2つの変数の直線的な関係の強さと方向を −1 から +1 で表す数値。+1 は完全な正の相関、−1 は完全な負の相関、0 は直線的関係がないことを示す。だ。1896年、英国の数学者カール・ピアソンが論文「回帰・遺伝・汎交配」の中で一般理論を定式化した。統計学ではこの数値を r という記号で書く。r は −1 から +1 の間を動く。+1 に近ければ「一方が増えると他方も増える」傾向が強く、−1 に近ければ「一方が増えると他方は減る」傾向が強い。0 なら関係はない。
ピアソンの貢献は絶大だった。それまで「なんとなく関係がありそうだ」としか言えなかったものを、数字で測れるようにした。しかし同時に、新しい問題が生まれた。数字が高いと、つい「原因がある」と思ってしまうのだ。たとえば r = 0.95(ほぼ完全な相関)と聞くと、「因果関係に違いない」と感じる人は多い。だが r は関係の強さを測る指標であって、因果を測る指標ではない。

カール・ピアソン
Karl Pearson, 1857–1936
英国の数学者・生物統計学者。相関係数、カイ二乗検定、標準偏差を確立。1911年にユニバーシティ・カレッジ・ロンドンに世界初の統計学科を設立。
"All causation as we have defined it is correlation, but the converse is not necessarily true, i.e. where we find correlation we cannot always predict causation."
「我々が定義した意味での因果はすべて相関であるが、その逆は必ずしも成り立たない。すなわち、相関を見出したところで常に因果を予測できるわけではない。」
— Karl Pearson, The Grammar of Science, 2nd edition, 1900
ピアソン自身がこの警告を発していた。相関という概念を生み出した本人が、その誤用を恐れていた。だがこの警告は、120年以上経った現在も驚くほど無視され続けている。
理由は単純で、私たちの脳は「原因と結果」の物語を作るように設計されているからだ。進化の過程で、「あの茂みが揺れた→捕食者がいる→逃げろ」という因果推論ができる個体が生き残った。この推論エンジンは現代でも常に稼働していて、2つの出来事が同時に起きるだけで、原因と結果の物語を自動生成する。
3つ目の「交絡変数交絡変数(Confounding Variable)原因と結果の両方に影響する隠れた第三の変数。AとBに因果関係がないのに相関が生じる最も多い原因。」が特に厄介だ。朝食を食べる子どもは成績が良い、という相関は実際に観察される。しかし毎朝朝食を出せる家庭は経済的・時間的に余裕がある。朝食そのものが成績を上げているのか、家庭環境が両方に影響しているのか。相関係数をいくら眺めてもこの2つを区別することは不可能だ。
よくある誤解
誤解
相関係数が高ければ因果関係がある可能性が高い
実際は
r は関係の「強さ」を測るだけ。r = 0.95 でも偶然の一致はありうる
誤解
相関関係は意味がないので無視してよい
実際は
相関は因果の「手がかり」として極めて有用。科学はここから始まる
誤解
実験すれば因果は完全に証明できる
実際は
倫理的に実験ができない場合が多い。ヒルの基準はそのために生まれた

夏のビーチ。気温が上がるとアイスクリームの売上も溺死者数も増える——しかしアイスクリームが人を溺れさせるわけではない(イメージ)
これから4つの相関関係を見てもらう。それぞれ「因果関係があるか」を直感で判断してほしい。考えすぎずに選ぶこと。大事なのは正解することではなく、自分の脳がどう反応するかを体験することだ。
「アイスクリームの売上が増えると、水難事故が増える」
米国の複数年のデータで、アイスクリームの売上と水難事故の件数の間に強い正の相関(相関係数 r = 約0.85)が確認されている。
✦ Summary — あなたの回答パターン
ここまでは、提示された相関に対して「因果かどうか」を判断する体験だった。しかし次はもっと根本的な問いを投げかけたい。そもそもグラフで2本の線が同じ方向に動いているのを見ただけで、あなたの脳は「関係がある」と思ってしまわないだろうか?
これからグラフを1つ見せる。
2本の線が描かれている。変数の名前は伏せてある。
直感だけで、「この2つのデータには関係がありそうか」を判断してほしい。
このクイズとジェネレーターには共通する教訓がある。グラフと統計だけでは因果は判断できない。では、相関から因果を導くには何が必要なのか。
1950年、英国の疫学者リチャード・ドールと統計学者オースティン・ブラッドフォード・ヒルは、肺がん患者と非患者の喫煙習慣を比較する論文を発表した。肺がん患者の中で「一度も喫煙したことがない」と答えた人はわずか0.3%。非患者では4.2%。
しかしタバコ業界はすかさず反論した。「相関は因果ではない」と。皮肉にも統計学の巨人ロナルド・フィッシャーロナルド・フィッシャー(Ronald A. Fisher, 1890–1962)「近代統計学の父」。分散分析やランダム化実験の理論を確立。しかし喫煙と肺がんの因果関係については終生懐疑的で、タバコ業界のコンサルタントを務めた。自身がタバコ業界の側に立った。

オースティン・ブラッドフォード・ヒル
Austin Bradford Hill, 1897–1991
英国の疫学者・統計学者。近代的なランダム化比較試験を開拓し、リチャード・ドールとともに喫煙と肺がんの関連を実証。1965年に提示した9つの観点は今日も広く使われている。
この状況を打開するためにヒルは1965年に9つの「観点」を提示した。ヒル自身は「どれも因果を確実に証明するものではなく、どれも必須条件ではない」と念を押した。だがこの控えめな枠組みが、観察データから因果を推論するための最も影響力のある指針となった。
ブラッドフォード・ヒルの9つの観点
喫煙者の肺がんリスクは非喫煙者の10〜20倍。他の交絡では説明しにくいほど大きい。「コーヒーを飲む人は寿命が長い」のように効果量が小さければ交絡の可能性が高い。ただし——小さいからといって因果がないとは言えない。
英国、米国、日本、ドイツ——どの国でも同じ方向。男女の別も時代も問わず。何度やっても同じなら因果を支持する強い証拠だ。
喫煙は肺がんだけでなく心臓病や口腔がんとも関連する。ヒルはこの基準を最も弱いと認めた——1つの原因が複数の結果を持つことはよくある。ただし「肺がんの大半が喫煙者に集中」という逆方向の特異性は因果を示唆する。
ヒルが「唯一、必須と言ってよい」と考えた基準。喫煙は肺がんの発症より何十年も前から行われていた。「SNSがうつを引き起こす」なら、SNS使用がうつより前に始まっていたことを示す必要がある。
1日10本より20本、20本より30本。用量反応関係は因果を支持する。ただし閾値効果(ある量を超えると一気にリスクが上がる)のように直線的でない関係もある。
タバコ煙中のベンゾ[α]ピレンがDNAに変異を起こすメカニズムが後に解明された。ただしヒルは「もっともらしさは当時の知識に依存する」と警告。メカニズムがまだ不明でも因果が存在する可能性はある。
動物実験でも煙に曝した個体に腫瘍が発生し、病理学的にも矛盾なし。ただし革命的な発見は既存の知識と矛盾することもある——保守的すぎる基準にもなりうる。
禁煙するとリスクが低下することが追跡研究で確認された。「原因を取り除くと結果が減る」は因果を支持する最も直接的な証拠だ。ある食品をやめたらアレルギーが消えた——これは日常版の実験的証拠。
アスベストと中皮腫など、吸入物質と癌の因果は他にも確認されている。類似例があれば新しい因果も受け入れやすい。ただし前例がないからといって否定する理由にはならない。
すべてを満たす必要はなく、1つ満たしたからといって因果が確定するわけでもない。しかし複数が同時に満たされるとき、「相関は因果ではない」という反論は急速に力を失う。喫煙と肺がんは、まさにそのケースだった。
● 転換点 ○ 関連する出来事
1896
ピアソン、相関係数を定式化
積率相関係数の一般理論を確立。2変数の関係を数字で測る時代が始まった。
1897
ピアソン、「擬似相関」を警告
比率を使った相関分析では見かけ上の相関が生じることを指摘。
1921
シューアル・ライト、パス解析を発表
観察データから因果を推論する最初の体系的試み。
1950
ドール&ヒル、喫煙と肺がんの関連を発表
タバコ業界は「相関は因果ではない」を盾に反論。
1965
ヒル、「環境と疾病」講演
9つの観点を提示。観察研究から因果を論じる最も影響力のある枠組みに。
2000年代
パール、因果推論の数学的枠組みを確立
構造的因果モデルとdo-calculus。2011年チューリング賞。
2014
Tyler Vigen「擬似相関」サイトが話題に
25,000以上の変数を比較し、笑えるほど無意味な相関を可視化。2015年に書籍化。
相関と因果の混同は知識の問題ではない。「相関は因果ではない」を知っている人でさえ日常的にこの罠にはまる。なぜなら脳は因果推論マシンであり、2つの数字が一緒に動いているのを見た瞬間に物語を書き始めるからだ。
さらに厄介なのは、この格言が武器として使われることだ。タバコ業界がそうしたように、不都合な科学的知見を退ける万能の盾にもなる。相関は因果ではない——正しい。だが相関は因果の手がかりでもある。
"No, correlation does not imply causation, but it sure as hell provides a hint."
「相関は因果を意味しない。だが、手がかりであることは間違いない。」
— Daniel Engber, Slate, 2012
1. 「第三の変数はないか」と自問する。2つの数字が一緒に動いているとき、「両方に影響する別の何かはないか」を考える。交絡変数チェック交絡変数チェック「この2つに同時に影響する第三の変数はないか」と自問する習慣。因果の早合点を防ぐ最も手軽な方法。だ。これだけで早合点の半分は防げる。
文化への登場
『ザ・ウェスト・ウィング』S1E2のタイトルそのものが "Post Hoc, Ergo Propter Hoc"。Tyler Vigen『Spurious Correlations』(2015年)は擬似相関を笑いに変えたベストセラーとなりデータリテラシー教育の定番に。
2. 「逆もありうるか」と問う。A→Bだと思ったら、B→Aも考える。方向を反転させるだけで物語はまったく変わる。
3. 「実験で確かめたか」を探す。ニュースの「〇〇が△△に効果がある」は観察研究かランダム化比較試験ランダム化比較試験(RCT)被験者をランダムに2群に分け、一方にだけ介入して結果を比較する実験。因果推定の最も信頼性の高い方法だが、倫理的に不可能な場合も多い。か。観察研究なら「因果とは限らない」と注釈を付ける。

喫煙と肺がんの因果を証明するのに、ドールとヒルは数十年の追跡研究を要した。タバコ業界は「相関は因果ではない」を盾に反論し続けた(イメージ)
Mathematical Contributions to the Theory of Evolution. III. Regression, Heredity and Panmixia
相関係数の一般理論を確立した論文。すべてはここから始まった。
The Environment and Disease: Association or Causation?
9つの観点は控えめだが、その控えめさが50年以上の耐久性を生んでいる。
グラフの説得力がいかに人を騙すかを、笑いながら学べる。
Smoking and Carcinoma of the Lung
「相関は因果ではない」がどう政治的武器として使われるかを知るうえで必読。