Qualia Journal
行動心理学
ドーパミンは「快楽の物質」ではなかった。1990年代、サルの脳に電極を刺した研究者が見つけたのは、報酬そのものではなく「予測と結果のずれ」に反応する神経回路だった。——その発見は、脳の学習アルゴリズムを初めて数式で記述することを可能にし、やがて人工知能の設計思想そのものを変えることになる。
ヴォルフラム・シュルツ、ピーター・ダイアン、リード・モンタギューが報酬予測誤差理論をScience誌に発表。ドーパミンニューロンの活動が強化学習の「教師信号」と一致することを示した。
同年、IBMのDeep Blueがチェス世界王者カスパロフに勝利。ハリー・ポッター第1巻がロンドンで刊行。香港が英国から中国に返還された。
同年の世界:クローン羊ドリーの誕生が公表され、DVDフォーマットが米国で発売開始。ダイアナ妃がパリで事故死し、京都議定書が採択された。
自動販売機にお金を入れ、ボタンを押す。コトン、と缶が落ちてくる。何も感じない。いつも通りだからだ。でも、もしその自販機がたまたま2本出してきたら? ほんの一瞬、「おっ」と思う。逆に、お金だけ取られて何も出てこなかったら、不快感は缶1本分の価値よりずっと大きい。
私たちの脳は、「起きたこと」そのものにはあまり興味がない。それよりも「予想と違ったこと」に激しく反応する。予想通りなら沈黙し、予想より良ければ興奮し、予想を裏切られれば落ち込む。この「ズレ」への感度こそが、学習を駆動するエンジンだ。
1990年代にサルの脳で発見されたこのメカニズムは、やがて「報酬予測誤差」と名づけられ、神経科学で最も成功した定量理論のひとつとなった。そしてその理論は、AIが自力で学習する仕組みの土台でもある。
あなたの脳が「予測と現実のズレ」にどう反応するかを、カードゲームといくつかのシナリオで体験する。そのズレの正体がドーパミンの挙動とどう結びつくのかを追い、脳の学習アルゴリズムがAIの設計にまで影響を及ぼしている構造を辿る。
1980年代、スイス・フリブール大学の生理学研究室で、ヴォルフラム・シュルツは地味な実験を繰り返していた。サルの中脳にあるドーパミンニューロンドーパミンニューロン中脳の黒質緻密部(SNc)と腹側被蓋野(VTA)に集中する神経細胞。ドーパミンを合成・放出し、線条体や前頭皮質に投射する。に微小電極を刺し、サルがジュースの報酬をもらうときの神経発火を記録する——それが彼の日常だった。もともとシュルツの関心はパーキンソン病の運動制御にあった。ドーパミンと報酬の関係は、まだ本格的な研究テーマですらなかった。
最初の観察では、ジュースが口に届いた瞬間にドーパミンニューロンが激しく発火した。予想通りだ。ドーパミンは「快楽の物質」として知られていたし、報酬がもらえたときに出るのは直感にも合っていた。だが実験を重ねるうちに、おかしなことが起き始めた。サルがジュースのパターンを学習すると、ジュースが来ても神経が反応しなくなったのだ。
さらに奇妙だったのは、反応が消えたのではなく「移動」したことだった。ジュースそのものへの発火が消え、代わりにジュースが来ることを予告する合図音の瞬間に発火が起き始めた。まるでニューロンが報酬それ自体ではなく、「報酬が来る予感」に反応しているかのように。
Wolfram Schultz
神経科学者
ハイデルベルク大学で医学学位を取得後、フリブール大学でドーパミンの報酬信号を発見。2001年よりケンブリッジ大学教授。2017年にピーター・ダイアン、レイ・ドーランと共にブレイン賞を受賞。王立協会フェロー。
そして最後のピース——予告された報酬が来なかったとき、ドーパミンニューロンの発火率がベースラインよりも下がった。「無い」ことへの反応だ。神経は普通、何も起きなければ何も反応しない。それなのに、「あるはずのものが無い」ことに対して、明確な抑制信号を出していた。
"We kept running into the same problem: why is this neuron not responding to reward, although the animal is getting a reward, when a minute ago, it was responding to the reward?"
「私たちは何度も同じ問題にぶつかった——さっきまで報酬に反応していたニューロンが、動物が報酬を受け取っているのに、なぜ反応しなくなったのか?」
— Wolfram Schultz, BrainFacts.org インタビュー (2021)
ここで理論の出番が来る。ソーク研究所にいた計算神経科学者ピーター・ダイアンPeter Dayan計算神経科学者。マックス・プランク生物サイバネティクス研究所所長。ユニバーシティ・カレッジ・ロンドンのギャツビー計算神経科学ユニットの初代所長を務めた。は、シュルツの実験データを見たとき、それが人工知能の分野で1980年代から存在していた数学モデル——TD学習TD学習(Temporal Difference Learning)リチャード・サットンが1988年に定式化した強化学習アルゴリズム。最終結果を待たず、途中の予測を次の予測で修正していく。「未来の見積もりを、少し先の未来の見積もりで更新する」手法。——の予測誤差信号と驚くほど一致することに気づいた。
1997年、シュルツ、ダイアン、リード・モンタギューの3人はScience誌に連名で論文を発表する。ドーパミンニューロンの発火パターンは、「報酬予測誤差」——予測された報酬と実際の報酬との差分——を符号化している、と。その差分とは、3つのシンプルなルールで記述できる。
報酬予測誤差の3パターン
予測より良い結果 → ドーパミン発火増加(正の予測誤差)/予測通り → 変化なし(ゼロ)/予測より悪い結果 → ドーパミン発火抑制(負の予測誤差)。3本のラスタープロットとヒストグラムで各パターンの神経発火を並べた図。
画像生成プロンプト
鳥獣戯画タッチ。3匹のカエルが並んでいる。左のカエルは思いがけず大きな虫をもらい目を見開いて喜ぶ(正の予測誤差)。中央のカエルは予想通りの虫をもらい無表情(ゼロ)。右のカエルは虫が来ず肩を落とす(負の予測誤差)。背景は和紙風。
報酬予測誤差の基本構造。脳は「何が起きたか」ではなく「予測とどれだけ違ったか」を計算している。
よくある誤解
誤解
ドーパミンは「快楽物質」であり、嬉しいときに分泌される
実際は
ドーパミンは「予測との差」を信号として伝える物質。予測通りの報酬ではほとんど出ない。予想外の報酬で跳ね上がる
誤解
報酬が大きいほどドーパミンは多く出る
実際は
ドーパミンの発火量を決めるのは報酬の絶対値ではなく「期待値からの乖離」。100万円もらっても、200万円を期待していたなら抑制信号が出る
誤解
ドーパミンの研究はサルの実験だけに基づいている
実際は
サルに加え、げっ歯類やヒトのfMRI研究でも同じパターンが確認されている。2020年にはDeepMindがマウスのドーパミン細胞で「分布型」予測誤差を発見
ここまで読んで、報酬予測誤差の仕組みは理解できただろう。だが「理解する」と「体感する」はまったく別のことだ。次のカードゲームでは、あなた自身の脳がパターンを学習し、予測を立て、そしてその予測が裏切られる過程をリアルタイムで記録する。——自分の「慣れ」と「驚き」を、外側から眺めてみよう。
→ 色のカードが順番にめくられる。並びにはパターンがある。
→ 最後の1枚は伏せたまま。その色を予測してほしい。
→ 全10ラウンド。途中で何かが変わるかもしれない。
10ラウンドの予測誤差
ここで面白いのは、この理論が「嬉しい」「悲しい」という主観的な感情ではなく、純粋に数学的な差分——予測値と実現値の引き算——で脳の反応を説明してしまうことだ。感情は予測誤差の「結果」として現れるものであって、ドーパミンが直接つくり出しているわけではない。
ではここで、報酬予測誤差の理論をいくつかの日常的な場面に当てはめてみよう。カードゲームで「体感」したことを、今度は「思考」で追いかける番だ。
報酬予測誤差が脳にとって重要な理由は、それが学習の教師信号として機能するからだ。予測が外れたとき——そのときだけ——脳は「何かを更新する必要がある」と判断する。予測が当たっている限り、脳は何も変えない。なぜ変える必要があるだろう? うまくいっているのだから。
報酬予測誤差の学習メカニズム
予測なしの報酬:最初のシグナル
学習が始まる前
何も予測していないときにジュースが来ると、ドーパミンニューロンはベースラインの3〜5Hzから20〜30Hzまで発火率を跳ね上げる。「予期しなかった良いことが起きた」——これが正の予測誤差だ。脳はこの信号をきっかけに、ジュースの直前に何が起きていたかを記録し始める。
予測の「移動」:信号は過去へ遡る
学習が進むと
「ベルが鳴る → ジュースが来る」というパターンを学ぶと、ドーパミンの発火はジュースの瞬間から、ベルの瞬間へ移動する。ジュースそのものにはもう反応しない。なぜなら予測通りだから。代わりに、ベルという「予測を変える最初のきっかけ」に反応するようになる。まさにTD学習が予測するとおりの挙動だ。
期待はずれ:負の予測誤差
予測した報酬が来ないとき
ベルが鳴ったのにジュースが来ない。このとき、ジュースが届くはずだった正確なタイミングでドーパミンの発火率がベースライン以下に落ちる。「あるはずのものがない」——負の予測誤差だ。脳はこの信号を使って、ベルとジュースの結びつきを弱める。
タイミングのズレにも反応する
量だけでなく時間にも敏感
報酬の量だけではない。タイミングが0.5秒ずれるだけでもドーパミンニューロンは反応する。本来の時刻に報酬が来なければ抑制、新しい時刻に報酬が届けば活性化。脳は「何が」だけでなく「いつ」起こるかも精密に予測し、そのずれを信号として使っている。
この仕組みの美しさは、そのシンプルさにある。脳は世界のすべてを記憶する必要はない。「予測と違ったこと」だけを記録し、予測を更新すればいい。予測が正確になるほど更新は減り、やがて安定する。——ただし世界が変わったときには、再び予測誤差が生まれ、学習が再起動する。
1972
レスコーラ=ワグナーモデル
学習は「予測と現実の差」によって駆動されるという数学モデルが提唱される。古典的条件づけの理論として広く受容されたが、まだ脳のメカニズムとは結びついていなかった。
1980年代
シュルツ、サルのドーパミンニューロンの記録を開始
フリブール大学で、サルの中脳ドーパミンニューロンの活動を長期にわたり記録する手法を確立。報酬に対する神経の反応パターンを体系的にデータ化した。
1988
リチャード・サットン、TD学習を定式化
コンピュータ科学者のサットンが、最終結果を待たずに予測を逐次更新するアルゴリズム「TD学習」を発表。この時点では純粋に計算機科学の理論だった。
1993
ドーパミン反応の「移動」が体系的に記録される
シュルツらが、サルの学習過程でドーパミンニューロンの反応が報酬から予測刺激へ移動することを示した。予測できた報酬にはもはや反応しない——この発見が理論と結びつく鍵となった。
1997
報酬予測誤差理論の発表
シュルツ、ダイアン、モンタギューがScience誌に論文を発表。ドーパミンニューロンの発火パターンがTD学習の予測誤差信号と一致することを示し、神経科学と人工知能の架橋となった。
2015
DeepMind、深層強化学習でAtariゲームを制覇
報酬予測誤差を基礎とするTD学習を深層ニューラルネットワークに組み込み、49本のAtariゲームでヒトレベルの性能を達成。
2017
ブレイン賞受賞
シュルツ、ダイアン、レイ・ドーランの3名がブレイン賞を受賞。報酬学習の神経メカニズム解明への貢献が評価された。
2020
DeepMind、「分布型」予測誤差をマウスの脳で発見
Nature誌に発表。個々のドーパミンニューロンが異なるレベルの楽観・悲観に「チューニング」されており、報酬の確率分布を表現していることを示した。
報酬予測誤差の物語が示しているのは、脳の学習アルゴリズムとAIの強化学習アルゴリズムが、独立に同じ原理にたどり着いたということだ。コンピュータ科学者がゲームをうまくプレイするAIを作ろうとして設計した仕組みが、数百万年かけて進化した脳の仕組みとほぼ同じだった。
予測通りなら沈黙し、予測より良ければ興奮し、予測を裏切られれば落ち込む。この3行が、脳の学習アルゴリズムのほぼすべてだ。
この知見は「面白い発見」にとどまらない。依存症の理解を変えた。薬物は予測誤差信号を人工的に増幅し、脳の学習回路をハイジャックする。通常の報酬では起こり得ないほどの正の予測誤差を繰り返し発生させ、脳に「これは生存に不可欠なほど重要なものだ」と誤学習させる。
テクノロジーの設計にも影響を与えた。SNSの通知がランダムなタイミングで届くのは、予測誤差を最大化する設計だ。いつ来るかわからない「いいね」は、毎回同じタイミングで届く「いいね」よりもずっと大きな予測誤差を生む。スロットマシン、ガチャ、プルトゥリフレッシュ——これらはすべて、予測不可能な報酬によって予測誤差を人為的に最大化する仕組みだ。
映画・ゲーム・AIへの登場
DeepMindのAlphaGoは、TD学習を基盤とする強化学習で囲碁の世界チャンピオンを破った。その根底にある数学は、シュルツがサルの脳で見たドーパミンの挙動と同じ原理に基づいている。また、OpenAIのChatGPTの学習に使われるRLHF(人間のフィードバックによる強化学習)も、報酬予測誤差を利用して出力を改善する仕組みだ。脳が使っている学習原理は、今やAIの設計思想そのものとなっている。
そして、この理論が語る最も深い含意はこうだ。私たちは「世界をありのままに」体験しているのではない。常に予測を立て、その予測からのズレだけを信号として受け取っている。完全に予測できた世界には、もはやシグナルがない。退屈とは、予測誤差がゼロに近づいた状態のことかもしれない。驚きとは、予測の失敗のことかもしれない。そして学習とは、その失敗を次の予測に織り込むことだ。
予測誤差の連鎖——脳からAIへ
左にサルの脳のドーパミンニューロン、中央にTD学習の数式、右にDeepMindのAIがAtariゲームをプレイする様子。3つが矢印で結ばれた図。
画像生成プロンプト
鳥獣戯画タッチ。左にサルが電極をつけた帽子を被りジュースを飲んでいる。中央に巻物に数式が書かれている。右にウサギがそろばんで計算している。3匹が一本の糸で結ばれている。背景は和紙風、墨と朱色のみ。
神経科学の実験データ、数学的定式化、AIの実装——3つの領域が報酬予測誤差という共通原理で繋がった。
A Neural Substrate of Prediction and Reward
ドーパミンニューロンの発火がTD学習の予測誤差信号と一致することを示した記念碑的論文。
Predictive Reward Signal of Dopamine Neurons
1997年論文の実験データを詳細に展開した総説。
Dopamine Reward Prediction Error Coding
20年分の研究を簡潔にまとめた更新版総説。
Understanding Dopamine and Reinforcement Learning
理論の全体像を計算論的視点から平易に解説。
A Distributional Code for Value in Dopamine-Based Reinforcement Learning
ドーパミンニューロンが報酬の「確率分布」を表現していることを示した。