報酬予測誤差とドーパミン

背景

サルの脳が「期待はずれ」に反応した日

1980年代、スイス・フリブール大学の生理学研究室で、ヴォルフラム・シュルツは地味な実験を繰り返していた。サルの中脳にあるドーパミンニューロンドーパミンニューロン中脳の黒質緻密部(SNc)と腹側被蓋野(VTA)に集中する神経細胞。ドーパミンを合成・放出し、線条体や前頭皮質に投射する。に微小電極を刺し、サルがジュースの報酬をもらうときの神経発火を記録する——それが彼の日常だった。もともとシュルツの関心はパーキンソン病の運動制御にあった。ドーパミンと報酬の関係は、まだ本格的な研究テーマですらなかった。

最初の観察では、ジュースが口に届いた瞬間にドーパミンニューロンが激しく発火した。予想通りだ。ドーパミンは「快楽の物質」として知られていたし、報酬がもらえたときに出るのは直感にも合っていた。だが実験を重ねるうちに、おかしなことが起き始めた。サルがジュースのパターンを学習すると、ジュースが来ても神経が反応しなくなったのだ。

さらに奇妙だったのは、反応が消えたのではなく「移動」したことだった。ジュースそのものへの発火が消え、代わりにジュースが来ることを予告する合図音の瞬間に発火が起き始めた。まるでニューロンが報酬それ自体ではなく、「報酬が来る予感」に反応しているかのように。

Wolfram Schultz

神経科学者

Wikipedia →

ハイデルベルク大学で医学学位を取得後、フリブール大学でドーパミンの報酬信号を発見。2001年よりケンブリッジ大学教授。2017年にピーター・ダイアン、レイ・ドーランと共にブレイン賞を受賞。王立協会フェロー。

そして最後のピース——予告された報酬が来なかったとき、ドーパミンニューロンの発火率がベースラインよりも下がった。「無い」ことへの反応だ。神経は普通、何も起きなければ何も反応しない。それなのに、「あるはずのものが無い」ことに対して、明確な抑制信号を出していた。

"We kept running into the same problem: why is this neuron not responding to reward, although the animal is getting a reward, when a minute ago, it was responding to the reward?"

「私たちは何度も同じ問題にぶつかった——さっきまで報酬に反応していたニューロンが、動物が報酬を受け取っているのに、なぜ反応しなくなったのか？」

— Wolfram Schultz, BrainFacts.org インタビュー (2021)

ここで理論の出番が来る。ソーク研究所にいた計算神経科学者ピーター・ダイアンPeter Dayan計算神経科学者。マックス・プランク生物サイバネティクス研究所所長。ユニバーシティ・カレッジ・ロンドンのギャツビー計算神経科学ユニットの初代所長を務めた。は、シュルツの実験データを見たとき、それが人工知能の分野で1980年代から存在していた数学モデル——TD学習TD学習（Temporal Difference Learning）リチャード・サットンが1988年に定式化した強化学習アルゴリズム。最終結果を待たず、途中の予測を次の予測で修正していく。「未来の見積もりを、少し先の未来の見積もりで更新する」手法。——の予測誤差信号と驚くほど一致することに気づいた。

1997年、シュルツ、ダイアン、リード・モンタギューの3人はScience誌に連名で論文を発表する。ドーパミンニューロンの発火パターンは、「報酬予測誤差」——予測された報酬と実際の報酬との差分——を符号化している、と。その差分とは、3つのシンプルなルールで記述できる。

予測通りなら沈黙し、予測を裏切られたとき初めてドーパミンは声を上げる。シュルツがサルの脳で見た3パターンは、脳の学習アルゴリズムそのものだった。

よくある誤解

誤解

ドーパミンは「快楽物質」であり、嬉しいときに分泌される

実際は

ドーパミンは「予測との差」を信号として伝える物質。予測通りの報酬ではほとんど出ない。予想外の報酬で跳ね上がる

誤解

報酬が大きいほどドーパミンは多く出る

実際は

ドーパミンの発火量を決めるのは報酬の絶対値ではなく「期待値からの乖離」。100万円もらっても、200万円を期待していたなら抑制信号が出る

誤解

ドーパミンの研究はサルの実験だけに基づいている

実際は

サルに加え、げっ歯類やヒトのfMRI研究でも同じパターンが確認されている。2020年にはDeepMindがマウスのドーパミン細胞で「分布型」予測誤差を発見

体験

あなたの脳の「予測誤差」を観察する

ここまで読んで、報酬予測誤差の仕組みは理解できただろう。だが「理解する」と「体感する」はまったく別のことだ。次のカードゲームでは、あなた自身の脳がパターンを学習し、予測を立て、そしてその予測が裏切られる過程をリアルタイムで記録する。——自分の「慣れ」と「驚き」を、外側から眺めてみよう。

予測精度トレーナー

→ 色のカードが順番にめくられる。並びにはパターンがある。

→ 最後の1枚は伏せたまま。その色を予測してほしい。

→ 全10ラウンド。途中で何かが変わるかもしれない。

ROUND 1 / 10

PHASE 1

予測誤差の推移

あなたの脳が描いた曲線

10ラウンドの予測誤差

学習

安定

変化

この曲線は、シュルツがサルの脳で記録したドーパミン発火パターンと同じ形をしている。
あなたは10回の予測で、その実験を追体験した。

ここで面白いのは、この理論が「嬉しい」「悲しい」という主観的な感情ではなく、純粋に数学的な差分——予測値と実現値の引き算——で脳の反応を説明してしまうことだ。感情は予測誤差の「結果」として現れるものであって、ドーパミンが直接つくり出しているわけではない。

ではここで、報酬予測誤差の理論をいくつかの日常的な場面に当てはめてみよう。カードゲームで「体感」したことを、今度は「思考」で追いかける番だ。

予測誤差クイズ1 / 3

メカニズム

「予測のズレ」が学習を駆動する仕組み

報酬予測誤差が脳にとって重要な理由は、それが学習の教師信号として機能するからだ。予測が外れたとき——そのときだけ——脳は「何かを更新する必要がある」と判断する。予測が当たっている限り、脳は何も変えない。なぜ変える必要があるだろう？　うまくいっているのだから。

報酬予測誤差の学習メカニズム

予測なしの報酬：最初のシグナル

学習が始まる前

▼

何も予測していないときにジュースが来ると、ドーパミンニューロンはベースラインの3〜5Hzから20〜30Hzまで発火率を跳ね上げる。「予期しなかった良いことが起きた」——これが正の予測誤差だ。脳はこの信号をきっかけに、ジュースの直前に何が起きていたかを記録し始める。

予測の「移動」：信号は過去へ遡る

学習が進むと

▼

「ベルが鳴る → ジュースが来る」というパターンを学ぶと、ドーパミンの発火はジュースの瞬間から、ベルの瞬間へ移動する。ジュースそのものにはもう反応しない。なぜなら予測通りだから。代わりに、ベルという「予測を変える最初のきっかけ」に反応するようになる。まさにTD学習が予測するとおりの挙動だ。

期待はずれ：負の予測誤差

予測した報酬が来ないとき

▼

ベルが鳴ったのにジュースが来ない。このとき、ジュースが届くはずだった正確なタイミングでドーパミンの発火率がベースライン以下に落ちる。「あるはずのものがない」——負の予測誤差だ。脳はこの信号を使って、ベルとジュースの結びつきを弱める。

タイミングのズレにも反応する

量だけでなく時間にも敏感

▼

報酬の量だけではない。タイミングが0.5秒ずれるだけでもドーパミンニューロンは反応する。本来の時刻に報酬が来なければ抑制、新しい時刻に報酬が届けば活性化。脳は「何が」だけでなく「いつ」起こるかも精密に予測し、そのずれを信号として使っている。

この仕組みの美しさは、そのシンプルさにある。脳は世界のすべてを記憶する必要はない。「予測と違ったこと」だけを記録し、予測を更新すればいい。予測が正確になるほど更新は減り、やがて安定する。——ただし世界が変わったときには、再び予測誤差が生まれ、学習が再起動する。

歴史

偶然の発見から人工知能まで

1972

レスコーラ＝ワグナーモデル

学習は「予測と現実の差」によって駆動されるという数学モデルが提唱される。古典的条件づけの理論として広く受容されたが、まだ脳のメカニズムとは結びついていなかった。

1980年代

シュルツ、サルのドーパミンニューロンの記録を開始

フリブール大学で、サルの中脳ドーパミンニューロンの活動を長期にわたり記録する手法を確立。報酬に対する神経の反応パターンを体系的にデータ化した。

1988

リチャード・サットン、TD学習を定式化

コンピュータ科学者のサットンが、最終結果を待たずに予測を逐次更新するアルゴリズム「TD学習」を発表。この時点では純粋に計算機科学の理論だった。

1993

ドーパミン反応の「移動」が体系的に記録される

シュルツらが、サルの学習過程でドーパミンニューロンの反応が報酬から予測刺激へ移動することを示した。予測できた報酬にはもはや反応しない——この発見が理論と結びつく鍵となった。

1997

報酬予測誤差理論の発表

シュルツ、ダイアン、モンタギューがScience誌に論文を発表。ドーパミンニューロンの発火パターンがTD学習の予測誤差信号と一致することを示し、神経科学と人工知能の架橋となった。

2015

DeepMind、深層強化学習でAtariゲームを制覇

報酬予測誤差を基礎とするTD学習を深層ニューラルネットワークに組み込み、49本のAtariゲームでヒトレベルの性能を達成。

2017

ブレイン賞受賞

シュルツ、ダイアン、レイ・ドーランの3名がブレイン賞を受賞。報酬学習の神経メカニズム解明への貢献が評価された。

2020

DeepMind、「分布型」予測誤差をマウスの脳で発見

Nature誌に発表。個々のドーパミンニューロンが異なるレベルの楽観・悲観に「チューニング」されており、報酬の確率分布を表現していることを示した。

つまり

脳とAIは同じ数式を使っている

報酬予測誤差の物語が示しているのは、脳の学習アルゴリズムとAIの強化学習アルゴリズムが、独立に同じ原理にたどり着いたということだ。コンピュータ科学者がゲームをうまくプレイするAIを作ろうとして設計した仕組みが、数百万年かけて進化した脳の仕組みとほぼ同じだった。

予測通りなら沈黙し、予測より良ければ興奮し、予測を裏切られれば落ち込む。この3行が、脳の学習アルゴリズムのほぼすべてだ。

この知見は「面白い発見」にとどまらない。依存症の理解を変えた。薬物は予測誤差信号を人工的に増幅し、脳の学習回路をハイジャックする。通常の報酬では起こり得ないほどの正の予測誤差を繰り返し発生させ、脳に「これは生存に不可欠なほど重要なものだ」と誤学習させる。

テクノロジーの設計にも影響を与えた。SNSの通知がランダムなタイミングで届くのは、予測誤差を最大化する設計だ。いつ来るかわからない「いいね」は、毎回同じタイミングで届く「いいね」よりもずっと大きな予測誤差を生む。スロットマシン、ガチャ、プルトゥリフレッシュ——これらはすべて、予測不可能な報酬によって予測誤差を人為的に最大化する仕組みだ。

映画・ゲーム・AIへの登場

DeepMindのAlphaGoは、TD学習を基盤とする強化学習で囲碁の世界チャンピオンを破った。その根底にある数学は、シュルツがサルの脳で見たドーパミンの挙動と同じ原理に基づいている。また、OpenAIのChatGPTの学習に使われるRLHF（人間のフィードバックによる強化学習）も、報酬予測誤差を利用して出力を改善する仕組みだ。脳が使っている学習原理は、今やAIの設計思想そのものとなっている。

そして、この理論が語る最も深い含意はこうだ。私たちは「世界をありのままに」体験しているのではない。常に予測を立て、その予測からのズレだけを信号として受け取っている。完全に予測できた世界には、もはやシグナルがない。退屈とは、予測誤差がゼロに近づいた状態のことかもしれない。驚きとは、予測の失敗のことかもしれない。そして学習とは、その失敗を次の予測に織り込むことだ。

脳を観測する技術が、脳の学習原理をAIに写し取る回路をひらいた。神経科学と機械学習は、報酬予測誤差という共通言語で結ばれている。

参考文献

原著論文1997

A Neural Substrate of Prediction and Reward

Wolfram Schultz, Peter Dayan & P. Read Montague — Science, 275(5306), 1593–1599

ドーパミンニューロンの発火がTD学習の予測誤差信号と一致することを示した記念碑的論文。

総説論文1998

Predictive Reward Signal of Dopamine Neurons

Wolfram Schultz — Journal of Neurophysiology, 80(1), 1–27

1997年論文の実験データを詳細に展開した総説。

総説論文2016

Dopamine Reward Prediction Error Coding

Wolfram Schultz — Dialogues in Clinical Neuroscience, 18(1), 23–32

20年分の研究を簡潔にまとめた更新版総説。

解説論文2011

Understanding Dopamine and Reinforcement Learning

Paul W. Glimcher — PNAS, 108(Supplement 3), 15647–15654

理論の全体像を計算論的視点から平易に解説。

原著論文2020

A Distributional Code for Value in Dopamine-Based Reinforcement Learning

Will Dabney et al. — Nature, 577, 671–675

ドーパミンニューロンが報酬の「確率分布」を表現していることを示した。

📌 この記事について
報酬予測誤差理論はSchultz, Dayan & Montague (1997)の原著論文に基づく。ドーパミンニューロンの3パターンはその後30年間にわたりサル・げっ歯類・ヒトで繰り返し再現されている。TD学習との対応関係は計算神経科学の標準的教科書に記載される知見。DeepMindの分布型強化学習との接続（2020年）は比較的新しく、今後さらに検証が進む領域。

e. Tamaki

神経科学ドーパミン報酬予測誤差強化学習TD学習人工知能