耳は口を見ている（マクガーク効果）

背景

1976年、テープを取り違えた実験室から始まった。

1976年の春、サリー大学の発達心理学研究室で、ハリー・マクガークと助手のジョン・マクドナルドは、乳児の言語知覚についての実験を準備していた。技術者に依頼したのは単純な作業だった——音声 [ba] を、口が [ga] を発音している映像に、手違いで重ねて再生した。二人が顔を見合わせたのは、その直後である。映像を見ながら聴くと、はっきりと [da] に聞こえる。目を閉じて音だけを聴くと、元どおり [ba] だった。

二人は実験を組み替えた。成人51名、3〜5歳児21名、7〜8歳児28名を集め、同じ映像を見せ、何に聞こえたかを記録した。結果は衝撃的だった。映像を見ながら聴いたとき、成人の98%が「違う音」を報告した。音声 [ba] + 映像 [ga] の組み合わせでは、大多数が「da」または「tha」と答えた。聴覚はそれまで、視覚とは独立した感覚だと信じられてきた。その前提が崩れた瞬間だった。

マクガーク効果の基本構造。音声 /ba/ と視覚 /ga/ を脳が統合した結果、どちらでもない /da/ が聞こえる。/ba/(唇を閉じる) と /ga/(喉奥) の中間にあたる /da/(舌先) が、視覚と聴覚の折衷案として出力される。

発見は意図したものではなかった。マクガークは乳児が母親の顔と声をどう結びつけるかに興味があった。視覚が聴覚を「書き換える」現象を探していたわけではない。しかし、技術者がテープのトラックを誤って組み合わせたおかげで、半世紀にわたって引用され続ける論文が生まれた。Natureへの投稿は1976年7月、受理は11月、掲載は同年12月23日。タイトルはHearing lips and seeing voices——「唇を聴き、声を見る」。

"We present here a new phenomenon which, as far as we are aware, has not hitherto been reported. It reveals a previously unsuspected influence of vision upon speech perception."

ここに、これまで報告されたことのない新しい現象を示す。視覚が音声知覚に与える、これまで想定されていなかった影響が明らかになる。

— McGurk & MacDonald, Hearing lips and seeing voices (Nature, 1976)

ハリー・マクガーク (1936–1998)

British developmental psychologist

スコットランド生まれの発達心理学者。サリー大学で乳児の音声知覚を研究していた1976年、偶然の録音ミスからクロスモーダルクロスモーダル (Cross-modal)
複数の感覚（視覚・聴覚・触覚など）をまたいで情報が統合される現象。モダリティ間の相互作用。錯覚を発見した。助手のジョン・マクドナルドとの共著論文は1976年12月のNature誌に掲載。後にストラスクライド大学の児童発達研究センター長を務めたが、1998年に62歳で死去。本人はこの発見を「娘の言語発達を観察する副産物だった」と回想している。

読む前に確認 — よくある誤解

✗ よくある誤解

錯覚だと知れば、本来の音が聞こえるようになる。

✓ 実際は

知識があっても効果は消えない。目を開けている限り、脳は視覚を音に織り込み続ける。解けないのが特徴。

✗ よくある誤解

耳が良い人ほど、視覚に影響されずに聞き取れる。

✓ 実際は

原論文では健聴の成人98%が融合を経験した。聴覚能力の高さと影響の受けやすさは、直接の関係がない。

✗ よくある誤解

訓練された音楽家なら、耳を独立させて聴ける。

✓ 実際は

2019年の研究で、熟練音楽家もマクガーク効果を経験することが確認された。視聴統合は意識の下で起きる。

体験する

目を閉じて聴いたときと、開けて聴いたときで、音は変わる。

マクガーク効果は、説明を読むだけでは腑に落ちない。自分の耳で確かめる必要がある。以下の McGurk Lab には、マクガーク効果の研究(Proverbio et al., 2016)で実際に実験刺激として使われた動画を埋め込んでいる。この動画は Wikipedia 英語版・中国語版の McGurk 記事でも公式採用されている定番デモ刺激だ。まず「目を閉じて聴く」で音声だけ確認し、次に「映像ありで見る」で同じ動画を見ながら聴き直してほしい。同じ音声なのに聞こえ方が変わる瞬間が、マクガーク効果の体験だ。

✦ McGurk Lab — 本物の研究刺激で体験する

ヘッドホン推奨。動画は Wikipedia 英語版の McGurk 記事で公式採用されている定番刺激で、Proverbio et al. 2016 論文に収録された実験刺激(音声 /pa/ に口 /ka/ の発音映像を重ねたもの)。重要: この音声トラックは論文著者が研究目的で意図的に子音情報を弱めた「曖昧な音」に加工されている。そのため、目を閉じて聴いても人によって /pa/・/ta/・/ba/・/fa/ などに聞こえる。これはバグではなく、視覚の影響が働きやすいように設計された実験刺激の特徴。Step 1 と Step 2 を順番に進めてください。

🙈 ▶ 再生ボタンを押してください

🔴 再生中 0.0s / 7.4s

STEP 1 🙈 まず目を閉じて(映像なしで音だけ)聴く未完了

STEP 2 👀 次に映像ありで同じ動画を観る Step 1 を完了してください

動画のライセンス: Proverbio A, Massetti G, Rizzi E, Zani A (2016) Skilled musicians are not subject to the McGurk effect, Scientific Reports 6:30423 の補足動画 S2。CC BY 4.0(改変なし)。再生できない場合は Chrome/Firefox でお試しください。

自然な肉声での McGurk 効果も体験したい方へ: 上記の研究刺激は子音情報を弱めた曖昧な音声を使うため、結果がばらつきやすい特徴があります。自然に録音された肉声ベースのデモ映像は、BBC Horizon の番組 "Is Seeing Believing?" に収録されており、YouTube で視聴可能(著作権は BBC に帰属、外部サイトへ移動します)。加工されていない自然発話での体験と本 Lab の結果を比べてみてください。

Step 1 と Step 2 を試してみて、どうだっただろうか。目を閉じて聴いたときと、映像を見ながら聴いたときで、同じ音声なのに聞こえ方が変わった——もし変わったなら、それがマクガーク効果を自分の耳と脳で体験した瞬間だ。融合は自分で「書き換えるぞ」と意識して起きるわけではない。目を開けているだけで、視覚情報が勝手に聴覚を上書きする。意識がそれを検知することすらできない。

📌 日本語話者が気づくかもしれないこと—— 動画の話者は英語話者で、/g/ を発音するとき破裂の直後から声帯を震わせる。一方、日本語の /が/ は破裂の前から声帯を震わせる先行有声化があるため、日本人の耳には英語 /g/ が「か」寄りに聞こえることがある(VOT = 声帯振動開始時間の違い)。これも脳が学習した音韻の枠組みで物理音を分類している現象で、視覚が聴覚を書き換えるマクガーク効果と同じ原理の、言語学習版だ。この Lab で使っている動画は voiceless(/pa/+/ka/→/ta/)パターンなので、日本人にも VOT 問題の影響が少なく効果を体験しやすい。

📊 図の見方(※筆者による簡易解析)

縦の赤線 = 破裂(burst)の瞬間

水色の実線 = この音声の実測 F2(第二フォルマント、~1400Hz)

白い破線 = 本来の /pa/ が持つべき F2 locus(~800Hz)

黒い上向き矢印 = F2 が本来より高く加工されている方向(/ta/ 寄りの ~1800Hz に近づけた中間値)

観察から示唆されること(100%の確定ではない)

破裂音のエネルギーは低周波に集中 → 両唇音 /p/・/b/ の典型的特徴(/t/ なら高域、/k/ なら中域が強くなる)
したがって子音部は物理的に /pa/ と考えられる(Wikipedia キャプション「audio of [pa]」と整合)
ただし F2 立ち上がりが ~1300Hz と、本来の /pa/(~800Hz)より高い
これは /ta/ の F2 locus(~1800Hz)寄りに加工された中間値。Proverbio 論文の「子音情報を曖昧化」と符合
結果として、聴者によっては /pa/ とも /ta/ とも聞こえうる境界的な刺激になっている可能性がある

🎧 Step 1 でも「た」寄りに聞こえた人へ—— Lab の Step 1(音だけ)でも「た」「タ」寄りに聞こえ、Step 2(映像あり)で変化しなかった場合、それは Lab が機能していないわけではなく、刺激音声そのものが境界的に作られていることが効いている可能性があります。Proverbio 論文は実際に「子音情報を意図的に弱めた」と記述しており、上記のスペクトログラム解析もそれと整合しています(※100%の確定ではなく強く示唆される範囲の知見)。マクガーク融合が視覚で発動したかどうかは、元の音声が十分に曖昧なほど分かりにくくなります。自然な肉声でのデモ(BBC Horizon など Lab 末尾のリンク)も併せて試すと比較しやすいです。

✦ Quick Quiz — 個人差と文化差

Q1. 原論文 (McGurk & MacDonald 1976) で、健聴の成人が /ba/音 + /ga/口を見せられたとき、視覚の影響を受けて「本来とは違う音」を報告した割合は?

Q2. 日本語を母語とする聴者と、英語を母語とする聴者。マクガーク効果(融合知覚)を強く体験するのはどちらか?

なぜか

統合は、耳の中では起きていない。

音は鼓膜を震わせて蝸牛に届き、有毛細胞が電気信号に変換する。ここまでは純粋な聴覚処理だ。映像は網膜の光受容細胞から、視覚野(後頭葉)に送られる。別々の入力、別々の経路。しかし、この2つがどこかで合流するからこそ、マクガーク効果は起きる。合流地点はどこにあるのか——fMRIと経頭蓋磁気刺激経頭蓋磁気刺激 (TMS)
頭蓋外から磁気パルスを当てて、特定の脳領域の活動を一時的に抑制する手法。神経科学で因果関係を調べるのに使われる。(TMS)が、答えを教えてくれる。

耳からの音と目からの口の動きは、別々の経路で脳に入る。しかし意識に上る前に、上側頭溝(STS)で一度統合される。STSをTMSで一時的に止めるとマクガーク効果が消える(Beauchamp 2010)——視覚が聴覚を書き換える中継地点だ。

上側頭溝上側頭溝 (Superior Temporal Sulcus, STS)
側頭葉の外側を前後に走る深いしわ。顔認識・生物的動き・音声の統合など、社会的情報処理の中心的ハブ。(STS) は、脳の側頭葉にある深いしわで、顔の動きや生物的な運動を処理する場所として知られていた。2010年、ボーシャンらは、被験者が不一致動画(/ba/音+/ga/口)を見ている最中にTMSでSTSの活動を抑制した。結果、マクガーク効果の発生率はほぼ半分に落ちた。STSを黙らせると、視覚は聴覚を書き換えなくなる。逆に一致動画(/ba/音+/ba/口)の認識には影響しなかった。STSは、クロスモーダルな錯覚の司令塔だった。

音が「聞こえた」と意識するまでの3段階。意識化されるのは Step 3 の最終結果だけで、Step 2 でどう修正されたかは自覚できない。だから錯覚だと知っていても効果は消えない——書き換えは自覚の外で起きている。

ここで重要なのは意識のタイミングだ。耳に届いた音が鼓膜を揺らしてから、意識に「何か聞こえた」と上るまで約200ミリ秒かかる。この200msの中で、脳は耳と目からの情報を突き合わせ、ズレていれば片方を書き換える。視覚は口の動きという強い文脈情報を持っているため、優先度が高い。結果として、意識に上る音は「耳に届いた音」ではなく「視覚で補正された音」になる。

"As far as the speech brain is concerned, the auditory and visual information are never really separate."

話すための脳にとって、聴覚情報と視覚情報は決して切り離されていない。
— Lawrence Rosenblum(カリフォルニア大学リバーサイド校・心理学教授、『See What I'm Saying』著者)

もうひとつ、興味深い事実がある。融合の強さは、人によって驚くほど違う。同じ /ba/音+/ga/口の動画を見せても、融合率が0%の人から100%の人までが存在する。健康な成人の中でも、この分布は広い。発達段階による差もある。5〜9歳の子どもは視覚の影響が弱く、音声のまま「ba」と聞き取ることが多い。視聴統合は、年齢とともに深まる技能だ。

McGurk 融合率の4つの比較

成人(英語話者)

82%

10代(英語話者)

72%

5〜9歳児

40%

成人(日本語話者)

48%

◆ 読み方

成人は視覚統合が強い。子どもは音声優位で、年齢とともに視覚依存が増える。日本語話者は英語話者より融合が弱い——Sekiyama & Tohkura (1993)の解釈は2つある。音韻弁別性仮説(日本語の子音差が明瞭で、視覚に頼る必要が少ない)と、顔直視回避仮説(対面で顔を凝視する習慣が相対的に弱い)。いずれも確定ではない。数値は諸研究の平均的傾向で、個人差は非常に大きい。

個人差と文化差の存在は、マクガーク効果が固定した「仕組み」ではないことを示している。誰もが同じ割合で視覚に頼っているわけではない。幼少期の言語環境、顔を見る習慣、おそらくは眼球運動の癖まで、さまざまな要因がこの統合の強さを調整している。「脳は視覚を優先する」は平均的な話であって、個々人にそのまま当てはまるわけではない。

歴史

「聞く」と「見る」の境目を溶かした半世紀。

1954

ススマンのダイコティック実験

両耳に別々の単語を流すと片方しか聞き取れない「選択的注意」の研究が始まる。聴覚は独立の感覚だとされていた。

1976

McGurk & MacDonald — Nature誌に「Hearing lips and seeing voices」

音声/ba/ + 口/ga/の映像で成人の98%が「da」と報告。視覚が聴覚を書き換える初の実証。偶然の録音ミスが出発点だった。

1991

Sekiyama & Tohkura — 日本語話者の特殊性

日本語を母語とする被験者でマクガーク効果が弱いことを報告。言語・文化によって視覚依存の度合いが違うことが判明した。

2005

Calvert & Thesen — fMRIでSTSの関与を特定

マクガーク融合が起きているとき、脳のどこが活動しているかを画像で観察。上側頭溝が有力候補として浮上した。

2010

Beauchamp et al. — TMSで因果関係を証明

被験者がマクガーク刺激を見ている最中にSTSをTMSで抑制。融合率がほぼ半分に落ち、STSがこの錯覚の因果的中枢であることが示された。

2016

YouTubeとTikTokで拡散

BBC Horizon「Is Seeing Believing?」(2010) の /ba/-/fa/ デモ映像をきっかけに、視聴覚錯覚の動画が数千万回再生される。大衆文化への浸透。

2018

40年レビュー — Alsius et al.

発見から40年のレビューが刊行。研究蓄積は膨大だが、個人差・文化差の本当の原因はいまだ確定していないと結論される。

2023

AI音声モデルへの応用

Audio-Visual Speech Recognition が実用段階に。騒音下では口の動きを併用した方が認識精度が上がる——マクガーク効果の工学的応用。

つまり

聞こえるという出来事は、顔とセットで起きている。

耳が音を拾い、脳が意味を付ける——それだけなら、話はシンプルだ。しかし現実には、脳は耳だけの信号を信じていない。話し手の口を見ていれば、口の動きを音素音素 (Phoneme)
言語の意味を区別する最小の音単位。/b//g//d/ のような子音はすべて音素。耳が受け取る物理音から、脳が抽出する分類ラベル。と突き合わせ、ズレていれば視覚を優先して音を書き換える。聞こえるという体験は、顔を見るという行為と、分かちがたく結びついている。

この発見が意味するのは、単に「視覚が強い」ということではない。聴覚という独立した感覚は、実のところ存在しないかもしれない、ということだ。進化の時間尺度で、人間は常に話し相手の顔を見ながら言葉を聞いてきた。耳と目は、常にセットで働く前提で設計されている。電話やラジオのように、音声だけを切り離して届ける技術は20世紀の発明に過ぎない。脳は、それに合わせて進化していない。

同じ理由で、マスクをつけた相手の声は聞き取りにくい。コロナ禍で多くの人が経験した通りだ。音量は変わっていない。なのに、理解の負荷が上がる。口の動きが見えないせいで、脳は普段使える情報源を一つ失い、耳だけで音を組み立てなければならない。「聞こえているけれど聞き取れない」という奇妙な感覚の正体は、ここにある。

◆ 文化・メディアへの登場

BBC Horizon — "Is Seeing Believing?" (2010)

科学ドキュメンタリー番組がマクガーク効果を扱い、口を「Fa」と動かしながら音声「Ba」を流すクリップを放映。視聴者はまず「Fa」と聞き、目を閉じて再生すると「Ba」に切り替わる体験を一斉に経験した。YouTubeに転載され数千万再生を記録。

映画吹替の違和感の正体

外国映画の日本語吹替で、役者の口の動きと日本語のセリフがズレていると不自然に感じる。マクガーク効果は失敗した吹替で最もよく観察される——脳が口と音を整合させようとして、違和感が残留する。

"Yanny / Laurel" (2018)

2018年、同じ音声が人によって「ヤニー」と「ローレル」に聞こえ分かれる錯覚がSNSで拡散。マクガーク効果と厳密には別現象だが、「同じ物理入力で人によって聞こえる音が違う」という点で、同じ系譜の驚きが大衆に届いた瞬間だった。

音声認識AIへの工学応用

TeslaやGoogleの音声認識は、カメラを併用するAudio-Visual Speech Recognitionが研究されている。騒音下では口の動きを加えた方が精度が上がる。人間の脳が1976年に示していた戦略を、機械も取り入れつつある。

マクガーク効果は、意識の端にある装置を可視化する。意識に上る音は、世界の物理的な事実ではなく、複数の感覚を突き合わせた後の「結論」だ。私たちは生のデータを聞いていない。耳と目が共同で作った編集済みの出力を、「聞こえたもの」として受け取っている。世界を直接知覚しているという感覚そのものが、実のところ幻影に近い。

参考文献

Paper1976

Hearing lips and seeing voices

McGurk, H. & MacDonald, J. — Nature, 264(5588), 746–748

マクガーク効果を報告した原論文。わずか3ページだが、成人・子ども合わせて100名の実験データで視覚が聴覚を書き換えることを示した。引用数4,800回超。

Paper1991

McGurk effect in non-English listeners: few visual effects for Japanese subjects hearing Japanese syllables of high auditory intelligibility

Sekiyama, K. & Tohkura, Y. — Journal of the Acoustical Society of America

日本語話者でマクガーク効果が弱く出ることを初めて示した研究。母語の音韻特性または文化的要因が視覚統合の強度に影響することを示唆した。

Paper2010

fMRI-Guided Transcranial Magnetic Stimulation Reveals That the Superior Temporal Sulcus Is a Cortical Locus of the McGurk Effect

Beauchamp, M. S. et al. — Journal of Neuroscience, 30(7), 2414–2417

TMSを使って上側頭溝(STS)の活動を一時的に抑制。マクガーク錯覚の発生率がほぼ半分に落ちた。STSがこの錯覚の因果的中枢であることを示した決定的な研究。

Paper2018

Hearing Lips and Seeing Voices: The Origins and Development of the "McGurk Effect" and Reflections on Audio–Visual Speech Perception Over the Last 40 Years

Alsius, A., Paré, M. & Munhall, K. G. — Multisensory Research, 31(1-2), 7–38

発見40周年のレビュー。マクガーク効果の歴史、現状、残された問いを俯瞰。個人差・文化差の原因が未解明であることを率直に認めている。

Paper2018

The threshold for the McGurk effect in audio-visual noise decreases with development

Hirst, R. J. et al. — Scientific Reports, 8

5歳から成人までの発達過程を追跡。視覚統合は年齢とともに強化され、5〜9歳では音声優位、10代以降は大人並みになることを示した。

Paper2021

Rethinking the McGurk effect as a perceptual illusion

Magnotti, J. F. et al. — Attention, Perception, & Psychophysics, 83, 2583–2598

マクガーク効果の個人差が非常に大きいことを強調し、「錯覚」としての汎用性を問い直した論文。融合率0%〜100%の幅広い分布を報告。

Media2016

Skilled musicians are not subject to the McGurk effect — Supplementary Videos

Proverbio, A., Massetti, G., Rizzi, E., & Zani, A. — Scientific Reports, 6:30423

本記事の McGurk Lab に埋め込まれている動画は、この論文の補足動画(Supplementary Video S1/S2)を使用。Wikimedia Commons 経由、CC BY 4.0 ライセンス(改変なし)。後続研究(Politzer-Ahles & Pan, 2019)はこの「音楽家は効果を受けない」という結論を再検証して反証しており、現在は音楽訓練による免疫はないというのが主流の見解。

📌 この記事について——マクガーク効果そのものの存在と、STSが統合ハブであることは、複数の独立した研究室で再現されている。一方、個人差・文化差・発達の詳細な原因は、2026年現在も研究が続いている段階である。本文の数値(融合率の具体的なパーセンテージ)は研究ごとのばらつきが大きく、あくまで代表値として扱っている。

e. Tamaki

知覚・錯覚クロスモーダル聴覚視覚音声知覚脳と意識