再現性の危機 — Qualia Journal

背景

科学は自己訂正するはずだった

2015年8月28日、科学誌 Science に異例の論文が載った。タイトルは「Estimating the reproducibility of psychological science(心理学の再現性を見積もる)」。著者は270人。筆頭著者の欄に書かれているのは個人名ではなく、Open Science Collaboration(以下OSC)Open Science Collaboration (OSC)
Brian Nosek を中心に270人の研究者が参加した共同プロジェクト。2008年に心理学の3大誌(Psychological Science / JPSP / JEP: LMC)に載った100本の論文を、それぞれ別のチームが元の手続きに従って追試した。再現性を初めて大規模・系統的に測った試みだった。という集合体の名前だ。

彼らは2008年に一流心理学誌3誌に載った論文から100本を選び、オリジナルと同じ手順で追試した。元論文の97%が「統計的に有意」と報告していた。追試で再現できたのは、36%。効果の大きさは平均で元の半分。これが、世に出たときの数字だ。

よくある誤解 vs 実際は

よくある誤解

追試に失敗した=研究者が嘘をついた。不正な論文がたくさん見つかった、ということ。

実際は

不正はごく一部。問題は個人の誠実さより出版・分析・評価の構造のほうにある。正直な研究者でも、仕組みに従うだけで偽陽性を量産してしまう。

よくある誤解

心理学が特別にいい加減な分野なのだろう。物理や医学なら大丈夫。

実際は

後続の追試プロジェクトで、がん生物学は 46%、経済学は 60%前後、医学では Ioannidis が2005年の段階で同種の警告を出していた。心理学は最初に膿を出した分野に近い。

「再現できない」というのは、科学の定義そのものを揺さぶる言葉だ。再現性再現性(replication)
同じ手順でもう一度実験して、同じ結果が得られること。科学的主張が「知識」として認められる最低条件とされる。は、科学が「個人の思いつき」から「人類の知識」に変わる境界線だと信じられてきた。100本のうち64本が境界線を越えられなかったとすれば、私たちが教科書で読んだ何が、まだ知識なのか。

Reproducibility Project: Psychology 主導者

Brian Nosek(ブライアン・ノセック, 1973–)

Wikipedia

バージニア大学の社会心理学者。2013年に非営利の Center for Open Science を共同創設。論文の事前登録、研究計画の共有、データの公開を標準化するプラットフォーム OSF を構築した。OSC 2015 は彼の研究室から始まった4年越しの共同プロジェクトだった。

この衝撃の数字を実際に計測したのがノセックのチームなら、10年前から計算で予告していたもう一人の人物がいる。ノセックは現場から、統計と制度の不備を「データで」暴いた。もう一人は数理的に、分野の構造そのものから「理屈で」同じ結論を引き出していた。

危機の予言者

John Ioannidis(ジョン・イオアニディス, 1965–)

Wikipedia

スタンフォード大学の疫学者・メタ科学者。2005年の論文「Why Most Published Research Findings Are False(公表された研究結果の大半が誤りである理由)」で、医学研究に偽陽性が蓄積する数理的構造を示した。OSC 2015 の10年前に、同じ警告をすでに出していた。

写真: PLOS Video Channel / CC BY 3.0(トリミング済み)

Ioannidis の2005年の論文は、タイトルからして挑発的だった。医学系のトップジャーナル PLOS Medicine に載ったこの論文は、仮説の事前確率、統計的検出力、研究者の自由度、分野内の競争度——たった4つのパラメータだけを使って、次のように書かれていた。

It can be proven that most claimed research findings are false.

「公表されている研究結果の多くが誤りである」ということは、証明可能である。

— John Ioannidis, "Why Most Published Research Findings Are False"(2005)

2005年の時点では、これは「理論的な予測」にすぎなかった。医学研究に偽陽性が蓄積する数理的な構造がある、というモデル上の話だ。予言はどれほど当たっていたのか——その答えが、10年後に数字として返ってきた。心理学の有名論文100本を、別の研究室がゼロから追試してみたのだ。

Open Science Collaboration (2015) — 再現とみなす基準は複数あるが、追試者の主観評価でも39%にとどまった

心理学は自分の足元を疑うところから始めた。だが、同じ疑問はすぐに他の分野に波及した。6年後、がん生物学でも同種の大規模な追試が行われた。元論文の3〜5割しか再現しない、という報告は、いまや特定の分野の話ではない。

OSC 2015 / Camerer et al. 2016 (経済学) / RPCB 2021 (がん生物学) / * 物理・化学はNature誌2016年調査の自己報告値

社会心理学が最も低く、自然科学に近づくほど再現率は上がる。これは「人間が変わりやすいから」というだけでは説明できない。後で見るように、効果が小さく、測定のノイズが大きい領域ほど、偽陽性が制度的に混入しやすい構造がある。

点が対角線から下にあるほど、追試で効果が縮んだことを示す。全体として、点は対角線より下に偏っている

体験する

あなたの再現予想——5つの有名実験

ここで一度、自分の直感を試してほしい。5つの有名な心理学研究を並べる。教科書で、ニュースで、TED Talkで、どこかで聞いたことがあるはずだ。それぞれ、追試で再現したと思うか——○(再現した) / △(部分的) / × (再現しなかった) で答えてから、実測結果を開いてほしい。

予想 → 実測5問中 0問回答

Study 1

パワーポージング

Carney, Cuddy, & Yap (2010) — TED Talk 視聴数2位

「力強いポーズを2分間とると、テストステロンが上がり、ストレスホルモンが下がり、リスクを取れるようになる」——この結果は、追試で再現したか?

× 再現しなかった— あなたの予想: —

2015年、Ranehill らが200人規模で追試したが、ホルモン変化も行動変化も観察されなかった。2016年、共著者の Dana Carney 自身が「この効果は実在しないと考えている」と公開声明を出した。Amy Cuddyの TED Talk は5,000万回再生を超えていた。

Study 2

自我消耗 (ego depletion)

Baumeister et al. (1998) — 意志の力は有限な資源である

「クッキーを我慢した人は、その後の難問に取り組む持続時間が短くなる。意志の力はバッテリーのように減る」——追試で再現したか?

× 再現しなかった— あなたの予想: —

2016年、23の研究室で2,000人以上を対象に追試。効果量はほぼゼロだった。自己啓発書やマネジメント書でさんざん引用された「意志の力のバッテリー」モデルは、原型のまま支持できる状態ではなくなった。

Study 3

社会的プライミング

Bargh, Chen, & Burrows (1996) — 高齢者を連想させる語を見ると歩くのが遅くなる

「高齢者連想語(しわ、杖など)を含む文を作った学生は、その後の廊下の歩行速度が遅くなる」——追試で再現したか?

× 再現しなかった— あなたの予想: —

2012年、Doyen らが赤外線センサーで歩行時間を正確に測って追試。効果は検出されなかった。元論文は実験者が手動のストップウォッチで測っていた。Bargh はブログで強く反論したが、その後の大規模追試も否定的だった。「プライミングの黄金期」の代表研究のひとつが倒れた。

Study 4

マシュマロテスト

Mischel (1972) — 我慢できた子は将来成功する

「4歳時点でマシュマロを目の前にして15分我慢できた子は、10年後の学業成績や30代の収入が高い」——追試で再現したか?

△ 部分的に再現— あなたの予想: —

2018年、Watts らが10倍のサンプル(900人超)で追試。我慢と将来成績の相関は存在したが、元の半分以下。さらに、親の学歴・家庭の経済状況を統計的に統制すると、効果はほぼ消える。「自制心が未来をつくる」という物語は、「家庭環境が自制心と未来の両方をつくる」という物語に書き換えられつつある。

Study 5

ウェイソンの2-4-6課題

Wason (1960) — 確証バイアスの古典実験

「『2, 4, 6』の背後にある規則を当てる課題で、被験者の大半は自分の仮説に合う数列ばかり試し、反証を試みない」——追試で再現したか?

○ 再現した— あなたの予想: —

60年以上にわたって何度も追試されたが、正答率は2〜3割で安定している。単純で、効果が大きく、認知的な一般現象であるため、社会的プライミングのような文脈依存が少ない。全ての心理学実験が疑わしいわけではない——ここが重要だ。

Your Prediction Score

0 / 5

——

5問のうち正解は ×・×・×・△・○——つまり有名なほど残っていないことが多い。派手な結果が派手な報道を生み、報道が常識を作る。常識を揺さぶる追試結果は、10年遅れてやってくる。

仕組み

偽陽性はどこから生まれるのか

研究者は嘘をついていない。それでも文献のあちこちに「効果あり」が積み上がる。その構造をいちばん近いところで体感するには、科学者ではなくサプリ会社の立場になるのが早い。「効きました!」という広告を、どうやって作れるか。

モニター試験 — サプリ「スリムX」

あなたはダイエットサプリ会社の商品担当。40人のモニターに1ヶ月飲んでもらった結果が返ってきた。このままでは広告が打てない。「効いた切り口」を探してほしい。

Step 1 — 観察する

全体の平均を見る。40人ぶんの平均体重変化は ほぼゼロ。このままでは「効いた」と言えない。

Step 2 — 切り口を試す

下のチェックボックスで被験者を絞り込む。組み合わせは 32 通り。どれか一つでも「効果あり」になれば広告が打てる。

縦軸: 体重変化(kg) / 横軸: 被験者

結果

対象: 40 名

−0.1 kg

平均体重変化

⚠ 効果なし

切り口を選ぶ — サブグループで再分析

女性だけで見る 30代だけで見る朝に飲んだ人だけ運動を併用した人だけ中断せず続けた人だけ

試した切り口: 0 / 32通り「効果あり」が出た回数: 0

📣 この切り口で広告が打てます

——

種明かし: このシミュレーターの体重変化データは、毎回ランダムに生成された乱数。サプリの効果は一切設定していません。それでも、切り口を変えるだけで「平均 −2kg」のような広告文が作れてしまう。何もないところから「効果あり」が拾い上げられた——これが p-hacking の正体です。

論文でも、同じことが起きる。研究者は「女性のみで再分析すると有意」「外れ値を1つ除くと有意」「従属変数をAではなくBにすると有意」という切り口を試せる。そのうち一つでも p<0.05 が出たら、その切り口を「最初から予定していた分析」として論文に書き、他の試行には触れない。読者には1回の成功した分析しか見えません。いま広告コピーで拾った「30代女性で朝に飲んだ人だけ −2kg」は、そのまま「30代女性で朝に服用した場合、有意な体重減少が確認された (p<0.05)」という論文の一文になりえる。

いま触ったこのゲームは、論文の世界に置き換えるとそのまま p-hackingp-hacking
分析のやり方を複数試し、p値(有意性の指標)が小さく出た結果だけを採用・報告する行為。意図的でなくても起こる。と呼ばれる。分析の切り口——性別で切る、年齢で切る、外れ値を外す、従属変数を変える——が多いほど、たまたま有意が混入する確率は跳ね上がる。「どこかで効いた」を「効いた」として論文を書けば、それは偽陽性になる。

p-hacking(ピー・ハッキング)の正式な定義は「p値を"ハック"する」——つまり一つのデータセットから「どう切れば有意になるか」を何通りも試し、有意になった切り口だけを論文に書く行為だ。悪意がなくても起きる。「あれ、この分析ではダメか。じゃあ外れ値を除いて……」という試行錯誤の中で、気づけば滑り込んでいる。Simmons らは2011年に、たった4つの分析の自由度(変数の追加/データ収集を止めるタイミング/条件の統合/共変量の投入)を組み合わせるだけで、本来5%であるはずの偽陽性率が 60%を超えることをシミュレーションで示した。1/20 のくじ引きが、2/3 のくじ引きになる。

もうひとつの名前が HARKing(ハーキング)。Hypothesizing After the Results are Known の頭字語で、データを見てから仮説を立て、「最初からこの仮説だった」と論文に書く行為を指す。探索的に見つけた関係は、同じデータで「検証」してもそれは検証ではなく、後付けに過ぎない——にもかかわらず、それを検証であるかのように提示する。読者には、データが予測を確証したように見える。実際には、予測のほうがデータに合わせて書き換えられている。

どちらも、捏造ではない。研究者が意図せず、制度の緩みから滑り込んでしまう。だから真面目な人でも巻き込まれる。これが「再現性の危機」が一部の不正研究者の問題ではなく、分野全体の構造問題と呼ばれる理由だ。

偽陽性を生む三つの歯車

p-hacking

分析の自由度 — Analytical Flexibility

▼

いま体験した通り。同じデータでも分析のしかたは何通りもある。どこかの切り口で p<0.05 が出たら、その切り口を「最初から予定していた分析」として報告する。他の試行は書かない。

一回の実験に20通りの分析が可能なら、効果ゼロのデータからでも約64%の確率で「有意な結果」が拾える。

出版バイアス

Publication Bias — 失敗は引き出しの中へ

▼

学術誌は「効果あり」の論文を優先的に載せる。効果が見つからなかった研究は投稿すらされず、研究室の引き出しに眠る(file drawer problem)。

読者が目にする文献は「成功した研究だけ」で構成される。100の研究室が同じ実験をして、1つだけ偶然有意になっても、その1本だけが世に出る。文献全体が、成功のハイライト集になる。

HARKing

Hypothesizing After the Results are Known

▼

結果を見てから、その結果に合う仮説を「事前の予測だった」ように書く行為。論文の冒頭で「われわれは X を予測した」と書かれていても、それは結果を見た後に書かれているかもしれない。

読者には、データが予測を確証したように見える。実際には、予測がデータに合わせて書き換えられている。Kerr (1998)Norbert L. Kerr
ミシガン州立大学の心理学者。1998年に論文「HARKing: Hypothesizing After the Results are Known」でこの用語を提唱。がこの振る舞いを命名した。

3つの歯車は、それぞれ別の層で回っている。p-hacking は一人の研究者のパソコンの中で、出版バイアスは分野全体の出版システムの中で、HARKing は論文の中の物語の中で。言葉で並べても掴みにくいので、一つずつ図で見ていく。まずは p-hacking——一回のデータ収集から、何通りの「分析の枝」が引けるのか。

偽陽性の率は、試した切り口の数だけ水増しされる

p-hacking は、一人の研究者が一つのデータセットの中で起こす話だった。次は視点をもっと広げる——20の研究室が同じ実験をしたら何が起きるか、という話だ。偶然1つだけ有意になった研究だけが世に出て、他の19本はそもそも投稿されない。

効果ゼロの薬でも、20の研究室が試せば偶然1つ p<0.05 が出る(=5%)。出版されるのはその1本

引き出しから消えるのは、研究だけではない。論文の中にある仮説もまた、書き換えられる。最後の歯車、HARKing は、p-hacking ほど派手ではないが、文献全体の「予測の的中率」を静かに底上げしていく。

順序を入れ替えるだけで、偶然が理論に化ける

この3つは独立に起きるのではない。p-hackingで作った「有意」を、HARKingで「最初から予測していた」と装い、出版バイアスが成功したものだけを選び出す。三つの歯車は噛み合って回っている。

歴史

危機は突然来なかった

1998

Kerr が「HARKing」を命名

結果を見てから仮説を書く振る舞いが、心理学で広く行われていることを指摘。まだ誰も動かなかった。

2005

Ioannidis「Why Most Published Research Findings Are False」

公表された医学研究の大半が誤りである、と数理的に示した。いまやメタ科学の出発点とされる。

2011

Bem「Feeling the Future」事件

心理学の一流誌 JPSP に「予知能力」を示唆する論文が掲載される。追試は失敗。この騒ぎが業界の危機感を決定的にした。

2011

Simmons, Nelson, & Simonsohn「False-Positive Psychology」

分析の自由度を悪用すれば、どんな仮説でも p<0.05 を作れることを実証。後に「p-hacking」と呼ばれるようになる。

2015

OSC「Reproducibility Project: Psychology」

270人の研究者が4年かけて100本を追試。再現率36%。Science 誌掲載。「再現性の危機」が一般用語になった瞬間。

2016

Many Labs 3・自我消耗の大規模追試

23研究室・2000人以上。自我消耗の効果は検出されず。教科書の書き換えが始まる。

2021

RPCB 公表 — がん生物学は46%

8年がかりの追試プロジェクトの最終結果。医療と近い分野でも、心理学と同水準の問題が確認された。

つまり

科学は、遅いが、自分を訂正する

再現性の危機、と呼ばれたこの出来事の本当の意味は、「心理学はダメだった」ではない。心理学が、自分のダメさを率先して可視化したということだ。同じ装置を他の分野に向けたら、同じものが出た。出してしまった。

そして出したあと、何が起きているか。事前登録(プレレジ)、データ公開、多重比較補正、追試ジャーナル、効果量の推定重視——ここ10年で、心理学の標準的な手続きは大きく変わった。2015年以降に書かれた心理学論文を読むときは、かつてとは違う目で読む必要がある。

One of the reasons for its success is that science has a built-in, error-correcting machinery at its very heart.

科学が成功している理由のひとつは、その心臓部に エラー訂正の仕組み が組み込まれていることだ。

— Carl Sagan, The Demon-Haunted World: Science as a Candle in the Dark (1995)

文化の中に現れた「再現性の危機」

Amy Cuddy の TED Talk 『Your Body Language May Shape Who You Are』(2012)

5000万回以上再生。パワーポージングが崩れた後も動画は削除されず、ビジネス書・自己啓発本での引用は減ったが消えてはいない。常識の訂正には、研究の訂正よりはるかに長い時間がかかる。

John Oliver『Last Week Tonight』"Scientific Studies"(2016)

再現性の危機と出版バイアスをプライムタイムのコメディ番組で20分にわたって解説。「科学ニュースを信じる前に、再現されたかを確認してほしい」を一般視聴者向けに伝えた最初期の大衆番組。

『Nature』誌アンケート(2016)

1,576人の研究者の70%以上が「他の研究者の実験を再現できなかった経験がある」と回答。「危機」は心理学者だけの感覚ではないことが数字で出た。

もっと深く知りたい人へ

原著論文2015

Estimating the reproducibility of psychological science

Open Science Collaboration — Science, 349(6251), aac4716

再現性の危機を決定づけた論文。著者は270人、筆頭著者は集合体名義。Science誌のサイトで全文無料公開。

予言的エッセイ2005

Why Most Published Research Findings Are False

John P. A. Ioannidis — PLOS Medicine, 2(8), e124

OSC 2015 の10年前。偽陽性が科学文献に蓄積する構造を数理的に示した。オープンアクセス。メタ科学の出発点。

概念化2011

False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis

Joseph Simmons, Leif Nelson, Uri Simonsohn — Psychological Science, 22(11), 1359–1366

「ビートルズの曲を聞くと年齢が若返る」という露骨にあり得ない仮説でp<0.05を作って見せた。p-hacking の教科書。

追試プロジェクト2021

Investigating the replicability of preclinical cancer biology

Timothy M. Errington et al. — eLife, 10, e71601

8年がかりでがん生物学53本を追試。再現率46%、効果量は元の平均15%。医療への含意は深刻。

追試実験2015

Assessing the Robustness of Power Posing

Eva Ranehill et al. — Psychological Science, 26(5), 653–656

パワーポージングの大規模追試(N=200)。ホルモン変化も行動変化も検出されなかった。Carney 自身の撤退声明もこの論文がきっかけ。

📌 この記事について
「心理学100本のうち再現できたのは36本」という衝撃の数字を出したのが Open Science Collaboration (2015)。270人の研究者が手分けして、2008年に3誌に載った論文を追試した4年がかりのプロジェクトだった。

この問題を10年早く警告していたのが Ioannidis (2005)「Why Most Published Research Findings Are False」で、統計的な構造から「公表される"発見"の多くは偽陽性のはず」と理論的に予言した論文。その警告が単なる理屈ではないことを、手続きの側から実証したのが Simmons, Nelson, & Simonsohn (2011)「False-Positive Psychology」で、分析の自由度だけで偽陽性率が60%を超えることをシミュレーションで示した。心理学の外でも同じ現象が起きることを確認したのが Errington et al. (2021) のがん生物学追試で、こちらは再現率46%。

「再現とみなす基準」「分野間の差異の解釈」「追試の方法論自体への批判」には複数の立場がある(たとえば Gilbert et al. 2016 は OSC の方法論に反論している)。本記事は、再現性の低さが広く観察されているという事実に重心を置いている。

e. Tamaki

科学と文化メタ科学統計心理学p-hacking出版バイアスオープンサイエンス