Qualia Journal

行動心理学

囚人のジレンマ

あなたにとって最も合理的な選択が、全員にとって最悪の結果を生む。この構造は、教室の思考実験ではなく、今この瞬間の世界を動かしている。

Est.1950

RAND研究所のフラッドとドレシャーが原型を考案。タッカーが「囚人」の物語として定式化した。

同年、朝鮮戦争が勃発。トルーマン大統領が水素爆弾の開発を承認。冷戦下の核戦略研究がゲーム理論の発展を加速させた。

個人の合理性と集団の利益が衝突する構造。軍拡競争から気候変動、日常の値引き交渉まで——この構造は至るところに潜んでいる。

グループワークで、ひとりだけサボっている人がいた。腹は立ったが、次のプロジェクトで自分も少し手を抜いた。すると別の誰かも手を抜き始めた。最初は全員がちゃんとやっていたはずなのに、いつの間にかチーム全体の質が落ちていた。

友人との約束、職場の暗黙のルール、国家間の条約——「相手が守るなら自分も守る。でも相手が破るなら、自分だけ守るのは損だ」。この感覚は、誰もが知っている。

この記事が扱うのは、その構造の正体である。

難易度
中級 — 数学の知識は不要
読了時間 約 18 分
要点

「合理的に考えれば裏切りが得」という構造の中で、あなた自身の判断がどう動くかを体験する。対戦相手の戦略が変わったとき、あなたの選択はどう変わるか。

背景

冷戦の研究所で生まれた「裏切りのゲーム」

1950年1月、カリフォルニア州サンタモニカ。太平洋を望むRAND研究所RAND Corporation1948年設立の米国シンクタンク。冷戦期の核戦略研究で知られる。名称は "Research ANd Development" の略。のオフィスで、数学者のメリル・フラッドとメルヴィン・ドレシャーが一つの実験を始めた。被験者は経済学者アーメン・アルチアンと数学者ジョン・ウィリアムズ。2人は100回にわたり、ある単純なゲームを繰り返しプレイすることになった。

ルールは素朴だ。各プレイヤーは毎回「協力」か「裏切り」を選ぶ。相手の選択は見えない。組み合わせによって得点が変わる。互いに協力すれば双方がそこそこ得をし、互いに裏切ればどちらも損をする。だが一方だけが裏切ると、裏切った側が最大の利益を得て、協力した側は最悪の結果を負う。以下の表がその利得構造だ。

自分 \ 相手相手が「協力」相手が「裏切り」
自分が
「協力」
3 / 3双方まあまあ得をする0 / 5自分だけカモにされる
自分が
「裏切り」
5 / 0出し抜き成功1 / 1共倒れ

ここに罠がある。相手がどちらを選ぼうと、自分は「裏切り」を選んだ方が得になる。相手が協力なら、こちらが裏切れば5点(協力だと3点)。相手が裏切りなら、こちらも裏切って1点(協力だと0点)。つまり「裏切り」はどの場合でも合理的だ。ところが2人とも合理的に行動すると、「互いに協力(3+3=6点)」よりも悪い「互いに裏切り(1+1=2点)」に落ちる。これがナッシュ均衡ナッシュ均衡(Nash Equilibrium)すべてのプレイヤーが、自分だけ戦略を変えても得にならない状態。囚人のジレンマでは「双方裏切り」がこの均衡にあたる。合理的なのに最善ではない——それがジレンマの本質。の罠だ。

Payoff Explorer — なぜ「裏切り」が合理的に見えるのか

あなたと相手の手をそれぞれ選んでみてほしい。どの組み合わせで何点もらえるかを確認できる。

あなたの手
協力 裏切り
×
相手の手
協力 裏切り
あなた
相手
0あなたの累計
0相手の累計

このゲームの名前が「囚人のジレンマ」になったのは、プリンストン大学の数学者アルバート・タッカーAlbert W. Tucker(1905–1995)カナダ生まれの数学者。プリンストン大学でナッシュの指導教官も務めた。囚人の物語を使って利得構造を説明し、「囚人のジレンマ」の名付け親となった。がスタンフォード大学の心理学者たちにこのゲームを説明した際に、2人の囚人が検察の取引に直面する物語を即興で作ったことによる。抽象的な利得行列が、一瞬で人間の物語になった。

🎲

ロバート・アクセルロッド

Political Scientist

ミシガン大学教授。1980年に囚人のジレンマのコンピューター・トーナメントを開催し、「しっぺ返し(Tit for Tat)」戦略の有効性を発見。著書『協力の進化』(1984年)は社会科学の古典。マッカーサー・フェロー。

"A group whose members pursue rational self-interest may all end up worse off than a group whose members act contrary to rational self-interest."

「合理的な自己利益を追求する集団は、合理的な自己利益に反して行動する集団よりも、全員が悪い結果に終わる可能性がある。」

— Stanford Encyclopedia of Philosophy, "Prisoner's Dilemma"

読む前に確認 — よくある誤解

✗ よくある誤解

「裏切り」が常に正解。協力する人は愚かだ。

✓ 実際は

1回きりのゲームでは裏切りが合理的だが、繰り返しゲームでは協力戦略が優位に立つことが実験で示されている。

✗ よくある誤解

教室の思考実験で、現実にはあまり関係ない。

✓ 実際は

核軍拡競争、気候変動交渉、価格競争、BitTorrentのファイル共有まで、同じ構造が至るところに存在する。

✗ よくある誤解

ゲーム理論は「人間の善悪」を論じるものだ。

✓ 実際は

善悪を問わない。特定の構造のもとで合理的行動がどんな結果を生むかを分析する数学的枠組み。

🎨

イラスト①|二匹の狐と取引

格子越しに向かい合う二匹の狐。一方は相手に手を差し出し(協力)、もう一方は背後に何かを隠している(裏切り)。間に巻物が散らばっている。

画像生成AIへのプロンプト

Chojugiga-style ink wash illustration, monochrome sepia, two anthropomorphic foxes facing each other through a lattice barrier, one extending a paw in cooperation while the other hides something behind its back, scattered scrolls between them, Japanese scroll painting aesthetic, no text

イメージ図(画像生成AI使用予定)


体験する

1回きりではなく、20回繰り返してみる。

利得表の体験で「裏切りが常に得」だと感じたかもしれない。では、同じ相手と何度も対戦したらどうなるか。これが「繰り返し囚人のジレンマ」だ。20ラウンド終了時の合計得点で勝敗が決まる。

下のシミュレーターでは、あなたがプレイヤーAとして毎回「協力」か「裏切り」を選ぶ。相手のプレイヤーBはコンピューターが操作し、選んだ戦略に従って自動で手を出す。戦略ごとに対戦して、どの相手との組み合わせが最も多くの点を稼げるか、試してみてほしい。

繰り返し囚人のジレンマRound 0 / 20
戦略を選んだら、「協力」か「裏切り」を押してください。
0あなた(A)
0相手(B)

コンピューター対戦のトーナメントで優勝したのは、最も単純で、親切なプログラムだった。わずか2行のコード。


なぜか

なぜ「親切な戦略」が勝ったのか

1980年、アクセルロッドが世界中のゲーム理論研究者に呼びかけた。「繰り返し囚人のジレンマで最も有効な戦略を提出してください」——これが有名なコンピューター・トーナメントだ。14人の専門家が提出した戦略を総当たりで200回ずつ対戦させた。

STEP 1 14人が戦略提出 第1回(1980年) STEP 2 総当たり200回戦 全ペアで対戦 結果 しっぺ返しが優勝 最も単純な2行 STEP 3 第2回も優勝 62戦略が挑戦 上位8戦略はすべて「先に裏切らない」戦略だった 複雑な戦略ほど成績が悪く、単純で寛容な戦略が生き残った

優勝したのは、平和研究者アナトール・ラパポートAnatol Rapoport(1911–2007)ロシア生まれの数学的心理学者。トロント大学教授。平和研究の先駆者。「しっぺ返し」を提出し、第1回・第2回ともに優勝。本人は「実生活での推奨はしない」と釘を刺した。が提出したしっぺ返し(Tit for Tat)だった。初手は協力、以降は相手の前回の手を返す——それだけだ。第2回トーナメントでは62人が挑戦し、全員が第1回の結果を知っていた。それでもしっぺ返しが再び優勝した。

しっぺ返しが強い4つの理由

1
Nice(親切)
先に裏切らない

初手で必ず協力する。自分から争いの火種を作らない。上位8戦略はすべてこの性質を共有し、先に裏切る戦略は一つも上位に入らなかった。

2
Retaliatory(報復的)
裏切られたら即座に返す

相手が裏切ったら次のラウンドで裏切りを返す。「こいつは搾取できない」と即座に学ばせる。報復がなければ、裏切り続ける方が得だからだ。

3
Forgiving(寛容)
報復したら水に流す

1回報復したら、相手が協力に戻ればこちらも協力に戻る。恨みを引きずらない。「1回裏切られたら永遠に裏切る」グリム・トリガー戦略は、報復の連鎖から抜け出せず長期的に沈む。

4
Clear(明快)
行動パターンが読みやすい

行動が単純で予測可能。相手はすぐに「前回の手を返してくる」と理解し、協力が最も得だと気づく。複雑な戦略は意図が伝わりにくく、不要な報復の連鎖を招く。

親切に始め、裏切りには毅然と対応し、許すことを知り、わかりやすく振る舞う。これがアクセルロッドが見出した「協力の進化」の条件だった。

"What accounts for TIT FOR TAT's robust success is its combination of being nice, retaliatory, forgiving, and clear."

「しっぺ返しが頑健に成功する理由は、親切で、報復的で、寛容で、明快であるという組み合わせにある。」

— Robert Axelrod, The Evolution of Cooperation (1984), p.54


歴史

思考実験から世界の枠組みへ

1950

フラッド&ドレシャーの実験

RAND研究所で100回繰り返しゲームを実施。理論が予測する「常に裏切り」ではなく、約60%の確率で協力が生じた。

1950

タッカーの「囚人」の物語

アルバート・タッカーがスタンフォード大学で、2人の囚人が検察の取引に直面するストーリーを作成。この名前が定着する。

1950–51

ナッシュの均衡理論

ジョン・ナッシュが博士論文で非協力ゲームの均衡概念を定式化。囚人のジレンマはその中の一例として登場する。

1980

アクセルロッドの第1回トーナメント

14戦略が参加。しっぺ返しが優勝。上位8戦略はすべて「先に裏切らない」性質を持っていた。

1981

Science誌に論文発表

アクセルロッドと進化生物学者ハミルトンが共著で発表。「利己的な個体の世界でも協力は進化しうる」と結論づけた。

1984

『協力の進化』出版

アクセルロッドの著書が出版。生物学、政治学、経済学に広く影響を与え、協力の条件を考えるための共通言語となった。

2009

オストロムのノーベル賞

エリノア・オストロムが「コモンズの統治」で受賞。囚人のジレンマの悲観的予測に反し、現実の共有資源管理では協力が成立しうることを実証した。


つまり

この構造は、今この瞬間も世界を動かしている

囚人のジレンマは教室のパズルではない。冷戦期の核軍拡競争——米ソ両国は「軍縮した方が双方にとって良い」と知っていながら、相手が軍縮しない可能性に怯えて軍拡を続けた。気候変動——どの国も排出削減が全体の利益になると知りつつ、自国だけが削減すれば経済的に不利になることを恐れて動けない。共有地の悲劇共有地の悲劇(Tragedy of the Commons)1968年にギャレット・ハーディンが提唱。共有資源を個人が合理的に利用すると資源が枯渇する構造。多人数の囚人のジレンマとして理解できる。——漁場の乱獲も大気汚染も、同じ構造が作動している。

🎨

イラスト②|共有地を囲む動物たち

池を囲む蛙、兎、猿、鹿。それぞれ魚を釣ろうとしているが池の水位が下がっている。蛙だけがその異変に気づいて水面を見つめている。

画像生成AIへのプロンプト

Chojugiga-style ink wash illustration, monochrome sepia, four anthropomorphic animals (frog rabbit monkey deer) sitting around a small pond each fishing, the water level is visibly low, the frog looks concerned at the shrinking water, Japanese scroll painting aesthetic, no text

イメージ図(画像生成AI使用予定)

しかし悲観だけが結論ではない。アクセルロッドのトーナメントが示したのは、関係が繰り返される限り、協力は合理的に成立しうるということだった。鍵は「未来の影」——次にまた会う可能性が十分にあるとき、裏切りの短期的利益よりも協力の長期的利益を選ぶようになる。エリノア・オストロムの研究は、現実の共同体が国家の介入や市場原理に頼らずとも共有資源を持続可能に管理できることを実証した。

ただし限界もある。しっぺ返しは「ノイズ」に弱い。現実世界ではコミュニケーションの誤解がある。一度の誤解が報復の連鎖を引き起こし、そこから抜け出せなくなる。後の研究では「寛大なしっぺ返し」(一定確率で裏切りを許す)や「パブロフ戦略」(勝ったら同じ手、負けたら変える)がノイズの多い環境でより有効であることが示された。完璧な戦略は存在しない。環境が変われば、最適解も変わる。

協力を生むのは善意ではない。繰り返しの構造だ。次にまた会う可能性がある限り、裏切りのコストは積み上がっていく。

文化への登場

映画『ダークナイト』(2008年)

ジョーカーが2隻のフェリー(一般市民と囚人)に爆弾を仕掛け、「相手を先に爆破すれば生き残れる」と迫る。一回きりの囚人のジレンマが物語のクライマックスに使われている。

リチャード・ドーキンス『利己的な遺伝子』(1976年、改訂版1989年)

ドーキンスはアクセルロッドのトーナメント結果を詳しく紹介し、利他的行動が遺伝子レベルの「利己性」から進化しうるメカニズムを論じた。

ウィリアム・パウンドストーン『囚人のジレンマ』(1992年)

RAND研究所の内幕、フォン・ノイマンの核戦略、そしてこのゲームの歴史を綴ったノンフィクション。

私はこの記事を書きながら、先週の会議のことを思い出した。プロジェクトの期限が迫っていて、別のチームに手伝いを頼む必要があった。頼めば借りができる。頼まなければ自分のチームだけが残業する。「頼んで断られたら気まずい」と思って何度もメールを書き直した。結局、頼んだ。相手は快く引き受けてくれた。翌週、相手チームから別件で相談が来た。あのとき協力を選ばなかったら、この相談は来なかったかもしれない。しっぺ返しの構造が、そこにあった。


もっと深く知りたい人へ
原著書籍1984

The Evolution of Cooperation

Robert Axelrod — Basic Books

すべてはここから。2回のトーナメント結果の分析と、「協力が進化する条件」。200ページほどで読みやすく、数式はほとんどない。社会科学の古典的名著。

論文1981

The Evolution of Cooperation

Robert Axelrod & William D. Hamilton — Science, 211(4489), 1390–96

進化生物学者ハミルトンとの共著。わずか6ページだが引用数は数万件に及ぶ。

百科事典1997–

Prisoner's Dilemma

Steven Kuhn — Stanford Encyclopedia of Philosophy

囚人のジレンマの哲学的・論理的側面を網羅した決定版エントリー。無料で読める。

一般書1992

Prisoner's Dilemma

William Poundstone — Anchor Books

RAND研究所の内幕と冷戦の核戦略。時代背景を知るには最良の一冊。

📌 この記事について
囚人のジレンマの利得構造とナッシュ均衡は数学的に厳密に定義されている。アクセルロッドのトーナメントは広く再現されているが、しっぺ返しの優位性はトーナメントの設計に依存する部分がある。「協力は繰り返しの中で進化しうる」という結論自体は強固だが、「しっぺ返しが常に最善」と読むのは単純化であるという批判もある。本記事はStanford Encyclopedia of Philosophy、Axelrod (1984)、Axelrod & Hamilton (1981) を主な根拠としている。
Game TheoryPrisoner's DilemmaCooperationNash EquilibriumTit for Tat
▼ Internal Dialogue >> Active
after.sh — 読後の対話ログ(架空)
// 「囚人のジレンマ」を読み終えた人との対話
reader@curious:~$ 結局、人は協力できるってこと?
「できる」というより、条件が揃えば協力が合理的になる。次にまた会う可能性。相手の行動が見えること。裏切りにコストがあること。この3つが揃えば、利己的な個体でも協力を選ぶ。
reader@curious:~$ じゃあ1回きりの相手には
理論上は裏切りが合理的だ。でも現実には「1回きり」はほとんどない。同じ業界なら噂は回る。ネットにはレビューが残る。「未来の影」は思ったより長い。
reader@curious:~$ しっぺ返しって「やられたらやり返す」でしょ
半分だけ合っている。核心は「やり返したら、すぐ許す」の方にある。恨みを持ち続ける戦略は長期戦で沈む。報復と寛容のバランスが肝だった。
reader@curious:~$ 常に裏切り戦略と対戦して腹が立った
その苛立ちは、あなたが協力を期待していた証拠でもある。数字の上では1点ずつ取れているのに、5点を取られた記憶の方が強い。それは損失回避の話でもある。
reader@curious:~$ exit # そっか