囚人のジレンマ — Qualia Journal

背景

冷戦の研究所で生まれた「裏切りのゲーム」

1950年1月、カリフォルニア州サンタモニカ。太平洋を望むRAND研究所RAND Corporation1948年設立の米国シンクタンク。冷戦期の核戦略研究で知られる。名称は "Research ANd Development" の略。のオフィスで、数学者のメリル・フラッドとメルヴィン・ドレシャーが一つの実験を始めた。被験者は経済学者アーメン・アルチアンと数学者ジョン・ウィリアムズ。2人は100回にわたり、ある単純なゲームを繰り返しプレイすることになった。

ルールは素朴だ。各プレイヤーは毎回「協力」か「裏切り」を選ぶ。相手の選択は見えない。組み合わせによって得点が変わる。互いに協力すれば双方がそこそこ得をし、互いに裏切ればどちらも損をする。だが一方だけが裏切ると、裏切った側が最大の利益を得て、協力した側は最悪の結果を負う。以下の表がその利得構造だ。

自分＼相手	相手が「協力」	相手が「裏切り」
自分が「協力」	3 / 3双方まあまあ得をする	0 / 5自分だけカモにされる
自分が「裏切り」	5 / 0出し抜き成功	1 / 1共倒れ

ここに罠がある。相手がどちらを選ぼうと、自分は「裏切り」を選んだ方が得になる。相手が協力なら、こちらが裏切れば5点（協力だと3点）。相手が裏切りなら、こちらも裏切って1点（協力だと0点）。つまり「裏切り」はどの場合でも合理的だ。ところが2人とも合理的に行動すると、「互いに協力（3+3=6点）」よりも悪い「互いに裏切り（1+1=2点）」に落ちる。これがナッシュ均衡ナッシュ均衡（Nash Equilibrium）すべてのプレイヤーが、自分だけ戦略を変えても得にならない状態。囚人のジレンマでは「双方裏切り」がこの均衡にあたる。合理的なのに最善ではない——それがジレンマの本質。の罠だ。

Payoff Explorer — なぜ「裏切り」が合理的に見えるのか

あなたと相手の手をそれぞれ選んでみてほしい。どの組み合わせで何点もらえるかを確認できる。

あなたの手

協力裏切り

相手の手

協力裏切り

あなた—

相手—

0あなたの累計

0相手の累計

このゲームの名前が「囚人のジレンマ」になったのは、プリンストン大学の数学者アルバート・タッカーAlbert W. Tucker（1905–1995）カナダ生まれの数学者。プリンストン大学でナッシュの指導教官も務めた。囚人の物語を使って利得構造を説明し、「囚人のジレンマ」の名付け親となった。がスタンフォード大学の心理学者たちにこのゲームを説明した際に、2人の囚人が検察の取引に直面する物語を即興で作ったことによる。抽象的な利得行列が、一瞬で人間の物語になった。

🎲

ロバート・アクセルロッド

Political Scientist

ミシガン大学教授。1980年に囚人のジレンマのコンピューター・トーナメントを開催し、「しっぺ返し（Tit for Tat）」戦略の有効性を発見。著書『協力の進化』（1984年）は社会科学の古典。マッカーサー・フェロー。

"A group whose members pursue rational self-interest may all end up worse off than a group whose members act contrary to rational self-interest."

「合理的な自己利益を追求する集団は、合理的な自己利益に反して行動する集団よりも、全員が悪い結果に終わる可能性がある。」

— Stanford Encyclopedia of Philosophy, "Prisoner's Dilemma"

読む前に確認 — よくある誤解

✗ よくある誤解

「裏切り」が常に正解。協力する人は愚かだ。

✓ 実際は

1回きりのゲームでは裏切りが合理的だが、繰り返しゲームでは協力戦略が優位に立つことが実験で示されている。

✗ よくある誤解

教室の思考実験で、現実にはあまり関係ない。

✓ 実際は

核軍拡競争、気候変動交渉、価格競争、BitTorrentのファイル共有まで、同じ構造が至るところに存在する。

✗ よくある誤解

ゲーム理論は「人間の善悪」を論じるものだ。

✓ 実際は

善悪を問わない。特定の構造のもとで合理的行動がどんな結果を生むかを分析する数学的枠組み。

🎨

イラスト①｜二匹の狐と取引

格子越しに向かい合う二匹の狐。一方は相手に手を差し出し（協力）、もう一方は背後に何かを隠している（裏切り）。間に巻物が散らばっている。

画像生成AIへのプロンプト

Chojugiga-style ink wash illustration, monochrome sepia, two anthropomorphic foxes facing each other through a lattice barrier, one extending a paw in cooperation while the other hides something behind its back, scattered scrolls between them, Japanese scroll painting aesthetic, no text

イメージ図（画像生成AI使用予定）

体験する

1回きりではなく、20回繰り返してみる。

利得表の体験で「裏切りが常に得」だと感じたかもしれない。では、同じ相手と何度も対戦したらどうなるか。これが「繰り返し囚人のジレンマ」だ。20ラウンド終了時の合計得点で勝敗が決まる。

下のシミュレーターでは、あなたがプレイヤーAとして毎回「協力」か「裏切り」を選ぶ。相手のプレイヤーBはコンピューターが操作し、選んだ戦略に従って自動で手を出す。戦略ごとに対戦して、どの相手との組み合わせが最も多くの点を稼げるか、試してみてほしい。

繰り返し囚人のジレンマRound 0 / 20

相手（プレイヤーB）の戦略を選ぶ

しっぺ返し— 初手は協力。以降は相手の前回の手を返す常に協力— 何があっても毎回協力する常に裏切り— 何があっても毎回裏切るランダム— 毎回50%の確率で協力か裏切りを選ぶ

あなた（プレイヤーA）の手を選ぶ

戦略を選んだら、「協力」か「裏切り」を押してください。

0あなた（A）

0相手（B）

コンピューター対戦のトーナメントで優勝したのは、最も単純で、親切なプログラムだった。わずか2行のコード。

なぜか

なぜ「親切な戦略」が勝ったのか

1980年、アクセルロッドが世界中のゲーム理論研究者に呼びかけた。「繰り返し囚人のジレンマで最も有効な戦略を提出してください」——これが有名なコンピューター・トーナメントだ。14人の専門家が提出した戦略を総当たりで200回ずつ対戦させた。

優勝したのは、平和研究者アナトール・ラパポートAnatol Rapoport（1911–2007）ロシア生まれの数学的心理学者。トロント大学教授。平和研究の先駆者。「しっぺ返し」を提出し、第1回・第2回ともに優勝。本人は「実生活での推奨はしない」と釘を刺した。が提出したしっぺ返し（Tit for Tat）だった。初手は協力、以降は相手の前回の手を返す——それだけだ。第2回トーナメントでは62人が挑戦し、全員が第1回の結果を知っていた。それでもしっぺ返しが再び優勝した。

しっぺ返しが強い4つの理由

Nice（親切）

先に裏切らない

▼

初手で必ず協力する。自分から争いの火種を作らない。上位8戦略はすべてこの性質を共有し、先に裏切る戦略は一つも上位に入らなかった。

Retaliatory（報復的）

裏切られたら即座に返す

▼

相手が裏切ったら次のラウンドで裏切りを返す。「こいつは搾取できない」と即座に学ばせる。報復がなければ、裏切り続ける方が得だからだ。

Forgiving（寛容）

報復したら水に流す

▼

1回報復したら、相手が協力に戻ればこちらも協力に戻る。恨みを引きずらない。「1回裏切られたら永遠に裏切る」グリム・トリガー戦略は、報復の連鎖から抜け出せず長期的に沈む。

Clear（明快）

行動パターンが読みやすい

▼

行動が単純で予測可能。相手はすぐに「前回の手を返してくる」と理解し、協力が最も得だと気づく。複雑な戦略は意図が伝わりにくく、不要な報復の連鎖を招く。

親切に始め、裏切りには毅然と対応し、許すことを知り、わかりやすく振る舞う。これがアクセルロッドが見出した「協力の進化」の条件だった。

"What accounts for TIT FOR TAT's robust success is its combination of being nice, retaliatory, forgiving, and clear."

「しっぺ返しが頑健に成功する理由は、親切で、報復的で、寛容で、明快であるという組み合わせにある。」

— Robert Axelrod, The Evolution of Cooperation (1984), p.54

歴史

思考実験から世界の枠組みへ

1950

フラッド＆ドレシャーの実験

RAND研究所で100回繰り返しゲームを実施。理論が予測する「常に裏切り」ではなく、約60%の確率で協力が生じた。

1950

タッカーの「囚人」の物語

アルバート・タッカーがスタンフォード大学で、2人の囚人が検察の取引に直面するストーリーを作成。この名前が定着する。

1950–51

ナッシュの均衡理論

ジョン・ナッシュが博士論文で非協力ゲームの均衡概念を定式化。囚人のジレンマはその中の一例として登場する。

1980

アクセルロッドの第1回トーナメント

14戦略が参加。しっぺ返しが優勝。上位8戦略はすべて「先に裏切らない」性質を持っていた。

1981

Science誌に論文発表

アクセルロッドと進化生物学者ハミルトンが共著で発表。「利己的な個体の世界でも協力は進化しうる」と結論づけた。

1984

『協力の進化』出版

アクセルロッドの著書が出版。生物学、政治学、経済学に広く影響を与え、協力の条件を考えるための共通言語となった。

2009

オストロムのノーベル賞

エリノア・オストロムが「コモンズの統治」で受賞。囚人のジレンマの悲観的予測に反し、現実の共有資源管理では協力が成立しうることを実証した。

つまり

この構造は、今この瞬間も世界を動かしている

囚人のジレンマは教室のパズルではない。冷戦期の核軍拡競争——米ソ両国は「軍縮した方が双方にとって良い」と知っていながら、相手が軍縮しない可能性に怯えて軍拡を続けた。気候変動——どの国も排出削減が全体の利益になると知りつつ、自国だけが削減すれば経済的に不利になることを恐れて動けない。共有地の悲劇共有地の悲劇（Tragedy of the Commons）1968年にギャレット・ハーディンが提唱。共有資源を個人が合理的に利用すると資源が枯渇する構造。多人数の囚人のジレンマとして理解できる。——漁場の乱獲も大気汚染も、同じ構造が作動している。

🎨

イラスト②｜共有地を囲む動物たち

池を囲む蛙、兎、猿、鹿。それぞれ魚を釣ろうとしているが池の水位が下がっている。蛙だけがその異変に気づいて水面を見つめている。

画像生成AIへのプロンプト

Chojugiga-style ink wash illustration, monochrome sepia, four anthropomorphic animals (frog rabbit monkey deer) sitting around a small pond each fishing, the water level is visibly low, the frog looks concerned at the shrinking water, Japanese scroll painting aesthetic, no text

イメージ図（画像生成AI使用予定）

しかし悲観だけが結論ではない。アクセルロッドのトーナメントが示したのは、関係が繰り返される限り、協力は合理的に成立しうるということだった。鍵は「未来の影」——次にまた会う可能性が十分にあるとき、裏切りの短期的利益よりも協力の長期的利益を選ぶようになる。エリノア・オストロムの研究は、現実の共同体が国家の介入や市場原理に頼らずとも共有資源を持続可能に管理できることを実証した。

ただし限界もある。しっぺ返しは「ノイズ」に弱い。現実世界ではコミュニケーションの誤解がある。一度の誤解が報復の連鎖を引き起こし、そこから抜け出せなくなる。後の研究では「寛大なしっぺ返し」（一定確率で裏切りを許す）や「パブロフ戦略」（勝ったら同じ手、負けたら変える）がノイズの多い環境でより有効であることが示された。完璧な戦略は存在しない。環境が変われば、最適解も変わる。

協力を生むのは善意ではない。繰り返しの構造だ。次にまた会う可能性がある限り、裏切りのコストは積み上がっていく。

文化への登場

映画『ダークナイト』（2008年）

ジョーカーが2隻のフェリー（一般市民と囚人）に爆弾を仕掛け、「相手を先に爆破すれば生き残れる」と迫る。一回きりの囚人のジレンマが物語のクライマックスに使われている。

リチャード・ドーキンス『利己的な遺伝子』（1976年、改訂版1989年）

ドーキンスはアクセルロッドのトーナメント結果を詳しく紹介し、利他的行動が遺伝子レベルの「利己性」から進化しうるメカニズムを論じた。

ウィリアム・パウンドストーン『囚人のジレンマ』（1992年）

RAND研究所の内幕、フォン・ノイマンの核戦略、そしてこのゲームの歴史を綴ったノンフィクション。

私はこの記事を書きながら、先週の会議のことを思い出した。プロジェクトの期限が迫っていて、別のチームに手伝いを頼む必要があった。頼めば借りができる。頼まなければ自分のチームだけが残業する。「頼んで断られたら気まずい」と思って何度もメールを書き直した。結局、頼んだ。相手は快く引き受けてくれた。翌週、相手チームから別件で相談が来た。あのとき協力を選ばなかったら、この相談は来なかったかもしれない。しっぺ返しの構造が、そこにあった。

もっと深く知りたい人へ

原著書籍1984

The Evolution of Cooperation

Robert Axelrod — Basic Books

すべてはここから。2回のトーナメント結果の分析と、「協力が進化する条件」。200ページほどで読みやすく、数式はほとんどない。社会科学の古典的名著。

論文1981

The Evolution of Cooperation

Robert Axelrod & William D. Hamilton — Science, 211(4489), 1390–96

進化生物学者ハミルトンとの共著。わずか6ページだが引用数は数万件に及ぶ。

百科事典1997–

Prisoner's Dilemma

Steven Kuhn — Stanford Encyclopedia of Philosophy

囚人のジレンマの哲学的・論理的側面を網羅した決定版エントリー。無料で読める。

一般書1992

Prisoner's Dilemma

William Poundstone — Anchor Books

RAND研究所の内幕と冷戦の核戦略。時代背景を知るには最良の一冊。

📌 この記事について
囚人のジレンマの利得構造とナッシュ均衡は数学的に厳密に定義されている。アクセルロッドのトーナメントは広く再現されているが、しっぺ返しの優位性はトーナメントの設計に依存する部分がある。「協力は繰り返しの中で進化しうる」という結論自体は強固だが、「しっぺ返しが常に最善」と読むのは単純化であるという批判もある。本記事はStanford Encyclopedia of Philosophy、Axelrod (1984)、Axelrod & Hamilton (1981) を主な根拠としている。

Game TheoryPrisoner's DilemmaCooperationNash EquilibriumTit for Tat