DeepMindはなぜ囲碁の世界を制したか
Demis Hassabis編「認識のOSの諸刃」── 神経科学者のAGI観【第1回/全3回】

Sebastian Mallaby著『The Infinity Machine』(2026年3月刊)を読み解きながら、神経科学から始まったDemis Hassabisの旅路がAlphaGoという成功に至り、Transformerという見落としを生み、最終的に推論モデルへ立ち返るという過程を、「認識のOS」の考え方で読み直す全3回シリーズ。
全3回構成:
- 第1回:DeepMindはなぜ囲碁の世界を制したか ── 認識のOSが成功を生む構造 ★ 本記事
- 第2回:なぜDeepMindはTransformerを見落としたのか ── 同じOSが失敗を生む構造
- 第3回:DeepMindはなぜ推論モデルで報われたのか ── 同じOSが報われる構造
Table of Contents
はじめに:オーディオブックで出会った、ある天才の物語
Sebastian Mallaby著『The Infinity Machine: Demis Hassabis, DeepMind, and the Quest for Superintelligence』(2026年3月刊)をオーディオブックで聴いた。
Demis Hassabisは、現在Google DeepMindを率いるAI研究者であり、2024年のノーベル化学賞受賞者である。チェスの神童として5歳で頭角を表し、20代で神経科学のPhDを取得し、2010年にDeepMindを共同創業。AlphaGoで囲碁の世界王者を破り、AlphaFoldでタンパク質折り畳み問題を解いた。
ここまでなら「天才の成功物語」で済む。しかしMallabyの伝記が面白いのは、その物語の中に一つの致命的な見落としを組み込んでいることだ。HassabisはOpenAIに先を越され、Transformerの重要性を見抜けず、ChatGPTの衝撃を「庭にタンクを乗り入れられた」と受け止めることになる。
なぜ、これほど鋭敏な知性を持つ男が、AI史最大の転換点を見落としたのか。
この問いを追っていくと、本書は突然、私が長年MBLで追求してきたテーマと共鳴し始める ──認識のOSは、人を成功させる装置であると同時に、同じ局面で失敗させる装置でもある、という構造だ。
ここで言う『認識のOS』とは、私たちが世界をどう切り取り、何を当然と見なし、何が見えにくいかを決める、深層の認識枠組みのことだ。コンピュータのOSのように、すべての判断・思考・行動の土台で動いているが、当人にはほとんど見えない。MBLでは身体・対話・哲学を通じてこのOSを観察し、必要に応じて書き換えていく試みを続けてきた。
シリーズ第1回となる本稿では、まずHassabisがいかにして自らの認識のOSを構築し、それを通じてAlphaGoという歴史的成功を生み出したかを追う。シリーズ冒頭で挙げた過去のMBL記事3本を縦糸に使いながら、彼の旅路を読み解いていきたい。
1. Hassabisが立っている場所
Hassabisの旅路を読み解くために、一つの地図を手にする必要がある。
認知神経科学者マックス・ベネットは『A Brief History of Intelligence』で、人間の知性を5つの進化的ブレイクスルーとして整理した(詳細はB#198、また第2回で改めて扱う)。
ここで第1回に必要なのは一点だけだ ──Hassabisの全キャリアは、Bennettの第1〜第3のブレイクスルー(Steering=方向づけ、Reinforcing=学習の強化、Simulating=未来の予測)を計算機に翻訳することに費やされている。彼の博士研究は第3のSimulating(海馬による未来シミュレーション)の解読であり、AlphaGoはそれを計算機に実装した装置だった。
そして彼は第5のブレイクスルー(Speaking=言語と文化)を見落とした ── これがTransformerの見落としの本質である。詳細は第2回で扱う。
2. Hassabisの認識のOS ──「脳の解読こそAGIへの王道」
DeepMindが2010年にロンドンで創業されたとき、Hassabisが掲げたミッションは挑発的だった ──「Solve intelligence. Then use it to solve everything else(知能を解決せよ。そしてそれを使って他のすべてを解決せよ)」。
そして達成方法への確信が独自だった ──「脳がどう動いているかを解読し、それを計算アーキテクチャに翻訳することこそ、AGIへの王道である」。
これは単なる方法論ではなく、ほとんど信仰に近い世界観だった。Hassabis自身、後にこう語っている:
“AGI must be a philosophical project, not just a technical one. It has to internalize human values.” (AGIとは、技術的な達成であると同時に、人間の価値観を内蔵した哲学的プロジェクトでなければならない)
知能には身体性が必要、多モーダル性が必要、エピソード記憶と想像力が必要、そして強化学習を介して育つ ── これら4つの柱を統合した先にAGIがある。AlphaGo、DQN、AlphaFoldはすべて、この世界観の延長線上にある。
このOSは強力だった。それまでの「シンボリックAI」(人間が記述したルールでAIを動かす伝統)の限界をHassabisは確信を持って見抜いていた。彼は別の道を見ていた ── 脳という、人類が知る唯一の汎用知能の実装例を、計算機の上に再現する道を。
そしてこのOSが、Hassabisを輝かしい成功に導く。
3. 博士研究 ── 海馬は「予測機械」である
Hassabisは2005年から2009年、UCL(ロンドン大学)のEleanor Maguire教授のもとで認知神経科学の博士号を取得した。研究テーマは海馬と記憶 ── まさにBennettの第3のブレイクスルー「Simulating」の神経基盤の解読だった。
海馬と新皮質 ── 二重の記憶システム
少し脳の働きを整理しておく。私たちの脳には、性質の異なる二つの記憶システムが共存している。
海馬は脳の奥にある小さな器官で、新しい経験を素早く・個別に記憶する。「昨日のあの会議」「先週のあの食事」のような、特定の出来事を瞬時にとらえる装置だ。
新皮質(neocortex)は脳の外側を覆う巨大な層で、こちらはゆっくり・統合的に学習する。「会議とはこういうもの」「食事とはこういうもの」という一般的な概念を、繰り返される経験から徐々に抽出していく。
二つは協力関係にある。睡眠中、海馬は日中の経験を新皮質へ「再生」して転送する。これが**メモリーコンソリデーション(記憶の固定化)**で、後にAlphaGoの前身DQNが採用した「経験再生(Experience Replay)」の生物学的モデルそのものだ。
衝撃の発見 ──「健忘症患者は未来を想像できない」
2007年、HassabisはPNAS誌に「Patients with hippocampal amnesia cannot imagine new experiences(海馬性健忘症患者は新しい経験を想像できない)」という論文を発表した。海馬両側に損傷を持つ患者は、過去の記憶を失うだけでなく、未来や架空のシーンを想像する能力も失っていたことを実証した研究だ。Science誌の「2007年のブレイクスルーTop 10」に選ばれている。
それまで「記憶」と「想像」は別の脳機能だと考えられていた。記憶は過去を扱う機能、想像は新しいものを生み出す機能 ── 別物だと。Hassabisの研究はその前提を根本から覆した。
構成的エピソード・シミュレーション仮説
ここからHassabisとMaguireが提唱したのが構成的エピソード・シミュレーション仮説である。
海馬は記憶を「録画再生」する装置ではない。過去の経験の断片(場所、人、物、感情)を、毎回その場で組み立て直してシーンを再構築している。そしてまったく同じ機構を使って、未来や架空のシーンも構築している。
つまり海馬は**「シーン構築装置」**だ。「明日の会議で何が起きるか」を想像するとき、私たちは過去の会議の断片(あの会議室、あの人の表情、あのときの議論の流れ)を組み合わせて、未来のシーンを構築している。記憶と想像は、同じ装置の異なる適用先にすぎない。
バレットの「予測機械」と重なる視点
ここで、別記事「『感情はコントロールできない』は本当か」で扱ったリサ・フェルドマン・バレットの理論と深く重なる視点が浮かび上がる:
脳は本質的に「予測機械」だ。外から入ってくる感覚情報をそのまま処理しているのではない。過去の経験をもとに「次に何が起きるか」を常に先取りして予測し、現実とのズレを修正し続けている。
バレットが脳全体を「予測機械」と捉えるとすれば、Hassabisはその予測機械の中核にある海馬の働きを解読したと言える。海馬がシーンを次々と構築できるからこそ、脳は「これから何が起きるか」を予測できる。そして実際に起きたことと予測のズレから、脳は学習する。
脳は反応する機械ではなく、予測する機械である ── この共通認識を、Hassabisは後にDeepMindでAIに翻訳することになる。海馬が脳の中でやっていることを、計算機の上で再現するのだ。
4. KahnemanのSystem 1/2 ── 認識のOSの二重構造
Hassabisが博士研究を進めていた頃、もう一つの重要な認知科学のフレームワークが普及しつつあった。Daniel KahnemanがThinking, Fast and Slow(2011)で大衆化した二重過程理論である。
詳細は「認識のOSにバグがある」で扱ったが、要点はこうだ。
System 1:速い、自動的、努力なし、直感。 System 2:遅い、意識的、努力的、熟慮。
人間の意思決定は、この二つの協調で成り立っている。直感(System 1)が瞬時に候補を絞り、熟慮(System 2)がそれを検証する。チェスの達人が一目で「この辺りに打つべき」と感じ、その上で「もし相手がこう来たら…」と先を読むのも、この協調だ。
Hassabisが博士研究で見たもの ── 海馬による予測・シーン構築 ── は、まさにこの二重過程の生物学的基盤だった。海馬・新皮質・前頭前野の連携で、直感が探索空間を絞り、熟慮が確認する。
「この構造を機械に翻訳すれば、機械もまた同じように『考える』はず」 ── これがHassabisの確信だった。次節で見ていくAlphaGoの3層構造は、まさにその確信の実装である。
5. AlphaGoの遺伝子 ── ブレイクスルー1〜3を計算機に翻訳する
Hassabisの博士研究の成果をAIに翻訳すると、どうなるか。答えは明確だ ──「過去の経験から内的モデルを作り、それを使って未来をシミュレートして判断する」装置を作ればよい。これがAlphaGoの設計思想の根幹である。
DQNと「経験再生」── 2つの伝統の最初の統合
AlphaGoに先立つ2013年から2015年、DeepMindは**DQN(Deep Q-Network)**でAtariゲームをプレイするAIを発表した。
DQNが歴史的に意味を持つのは、それまで別世界で動いていた2つのAI研究の伝統を最初に統合した装置だったからである。トロント派(Geoffrey Hinton 系統の深層学習)はパターン認識で躍進していたが「行動を学ぶ」ことは扱えなかった。アルバータ派(Richard Sutton、David Silver 系統の強化学習)は行動と報酬の理論を持っていたが、複雑な視覚入力を処理する手段がなかった。
統合を可能にした技術的な飛躍はこうだ ── それまでの強化学習は、人間が手作業で整理した「状況の特徴」を必要としていた。DQNは深層学習にその仕事を任せ、生のピクセルから自動的に「どんな状況か」を理解できるようにし、その理解を強化学習が受け取って行動を選ぶ ── この分業が一つのニューラルネットワーク上で初めて実現された。2つの伝統の歴史的結婚だった。
そしてDQNには、もう一つ生物学的な発想が組み込まれていた。**Experience Replay(経験再生)という仕組みで、エージェントは経験を「記憶バッファ」に溜め込み、ランダムに過去の経験を取り出して繰り返し学習する。これは睡眠中に海馬が経験を再生して新皮質に転送する現象(メモリーコンソリデーション)**の直接の模倣である。Hassabis の博士研究で見た海馬の働きが、ここで初めてAIに翻訳された。
Bennettの枠組みで言えば、DQNは第1(Steering)と第2(Reinforcing)のブレイクスルーを統合した装置だった。AlphaGoは、ここに第3のブレイクスルー(Simulating)を上乗せした装置である。
AlphaGoの3層構造
2016年に世界王者・李世乭を破ったAlphaGoは、3つの異なるコンポーネントの合体物だった。
Policy Network(方策ネットワーク) ── 盤面を見て、瞬時に候補手を絞り込む。プロ棋士の棋譜3000万手を学習している。囲碁盤には合法手が200手近くあるが、達人は一目見て「検討に値するのはこの5〜6手だな」と絞り込む。Policy Networkがやっているのはこれだ。直感=System 1に相当する機能。
Value Network(価値ネットワーク) ── 盤面を見て「この局面、自分が勝つ確率は何%か」を一目で判定する。具体的な手順を考えずに「これは勝っている」「これはマズい」と感じる、あの「形勢判断」の感覚である。これもSystem 1的な直感だが、Policy Networkとは別種 ──「何をすべきか」ではなく「今どんな状態か」を答える。
MCTS(モンテカルロ木探索)── 第3のブレイクスルーの実装 ── ここから先がSystem 2だ。Policy Networkが絞った候補手それぞれについて、「ここに打ったら相手はこう来る、それに対して自分はこう…」と先読みの木を展開する。何手も先までシミュレーションし、Value Networkで評価し、最善経路を選ぶ。これは熟慮=System 2であり、本質的にHassabisが博士研究で発見した**「海馬による未来シーン構築」**の計算実装である。
統合 ── 直感が探索を効率化する
MCTSだけだと、囲碁の組み合わせは10の170乗で、宇宙の原子数より多い。総当たり的に全部読むのは不可能だ。
そこでPolicy Networkが「まずこの5手だけ検討すればいい」と入口を絞る。MCTSがその5手それぞれについて先を読む。読み切れない場合、Value Networkが「ここで打ち切っても勝率0.65だから良さそう」と評価する。
つまりPolicy Networkが探索の幅を絞り、Value Networkが探索の深さを節約する。直感(System 1)が熟慮(System 2)を効率化するわけだ。
訓練の3段階 ── Coaching → Playing → Studying
AlphaGoがこの3つのネットワークを獲得するまでには、段階的な訓練プロセスがあった。シンプルなメタファーで表すなら、Coaching → Playing → Studying という3段階だ。
Coaching(コーチング)── 人間に学ぶ段階
Policy Networkは、まずプロ棋士の棋譜3000万手を「教師」として学習する。「こういう局面ではプロはこう打つ」というパターンを覚える、いわばコーチに教わる弟子の段階だ。
Playing(プレイング)── 自分と戦う段階
次に、その学習したPolicy Networkを自分自身の旧バージョンと何百万回も対戦させる。勝った手は強化し、負けた手は弱める。ここで機械は人間の弟子から自分の先生へと転じる。学ぶ相手は、もはやプロ棋士ではなく、自分自身だ。
Studying(スタディング)── 自分を評価する段階
自己対戦で生まれた数百万局の勝敗データから、Value Networkを訓練する。「この局面なら勝率0.72」と一目で判定する能力を獲得する。盤面を一目で「読む」研究者の段階だ。
この3段階 ──人に学び、自分と戦い、自分を評価する ── を経て、AlphaGoは人間の知識を出発点にしながら、最終的には人間を超える領域に到達した。
ちなみにDeepMindの研究プロセス自体も、この順序で進んだ。Atari の DQN は Studying(価値学習)が中心だった。そこに Playing(自己対戦)を組み合わせたことで、AlphaGo の飛躍が生まれた ── Hassabis 自身が本書で繰り返し強調しているポイントだ。
Move 37 ── 機械が直感を獲得した瞬間
2016年3月、李世乭との第2局。AlphaGoが打ったMove 37は、世界中の解説者を困惑させた。プロ棋士の常識から見て「意味不明な場所」に石を置いたのだ。観戦中の世界トップ棋士は「これは間違いだ」と言って盤からその石を取り除いてしまったほどだった。
しかし30数手後、その意味が現れる。AlphaGoは何世紀にもわたる人類の対局が見逃していた、新しい形を発見していた。
この瞬間、機械はもはや「人間の直感を真似る」段階を超えていた。自己対戦による強化学習を通じて、機械は人間の誰も持っていない直感を獲得していたのだ。
自己対戦(self-play)── データの天井を取り払う発想
ここからが、AlphaGoの遺伝子の最も革命的な部分だ。
AlphaGoの後継として2017年に発表されたAlphaZeroは、さらに踏み込んだ。前段階のCoaching を完全に飛ばし、人間の棋譜を一切使わず、ルールだけを教えられて、いきなりPlayingから始める ── 自分自身と何百万回も対戦することで、ゼロから世界最強になった。
この発想の革命性は、データの天井を取り払ったことにある。人間の棋譜は有限だが、自己対戦で生成される対局は無限。さらに重要なのは、強化学習の報酬信号が完全に客観的であること ──「勝った/負けた」は議論の余地がない。だから機械は、人間の判断や好みに縛られず、純粋に勝率を上げる方向に進化できる。
Move 37は、まさにこの過程で生まれた一手だった。人間の棋譜には存在しなかった形 ── つまり人類の経験の天井を超えたところで、機械が発見した直感だ。
この「自己対戦による無限のデータ生成」という発想は、本シリーズの後半で決定的に重要になる。第3回で扱うLLMの世界では、まさに**「データの天井」が壁となり、その壁を超えるためにAlphaGoが解いたのと同じ問題**に業界全体が直面することになるからだ。
AlphaGoの遺伝子 ── 何を継承するのか
Bennettの枠組みで言えば、AlphaGoは第1〜3のブレイクスルーを完全に統合し、しかも人間を超える領域に到達した装置だった。Hassabisの認識のOSは、ここで最大の正しさを証明した。
そしてこの装置の中核には、3つの要素が組み込まれている:
- 二重過程の協調(System 1としての直感ネットワーク × System 2としての探索)
- 自己対戦による無限のデータ生成(人間の経験の天井を超える仕組み)
- 客観的な報酬信号による評価(勝敗という議論の余地のない基準)
この3要素が「AlphaGoの遺伝子」だ。第3回で見ていくように、この遺伝子は10年後にLLMの世界に蘇ることになる。
第1回のまとめと、第2回への問い
AlphaGoの成功は、Hassabisの認識のOSが最大の正しさを証明した瞬間だった。神経科学博士の知見が、計算機の上で人間を超える知性を生み出した。Bennettの第1〜3のブレイクスルーを、誰もが認めざるを得ない形で実装してみせた。
「脳の解読こそAGIへの王道」── この信念は、AlphaGoによって完全に裏付けられた。
しかしここから、本書最大のドラマが始まる。同じ認識のOSが、次の局面で致命的な見落としを生む。
2017年、Hassabisと同じGoogle傘下の別の研究組織から、AI史を変える論文が発表される。それを彼は見落とす。2022年、その論文をスケールアップした製品が世界を席巻する。彼は「敵が我々の正面の庭にタンクを乗り入れた」と語ることになる。
なぜ、これほど鋭敏な知性が、見落とすのか。次回はその構造を、認知バイアスと脳の予測モデルの観点から読み解いていく。
▶ 次回:なぜDeepMindはTransformerを見落としたのか ── Demis Hassabis編「認識のOSの諸刃」第2回/全3回
本シリーズの読み解きの骨組み
過去のMBL記事3本を縦糸に使う:
- 【B#198】神経科学 × 進化生物学 × 人工知能:知性の本質を探る5つの視点 ── マックス・ベネット『A Brief History of Intelligence』の5つのブレイクスルー枠組み
- 「感情はコントロールできない」は本当か──脳の予測メカニズムから感情を理解する ── リサ・フェルドマン・バレットの予測機械理論
- 認識のOSにバグがある──「直感」と「熟慮」という2つの回路 ── KahnemanのSystem 1/2、Siegelの「蓋が開く」、Barrettの「予測の固着」
これは単なる本の感想ではなく、自分の認識のOSを観察するための鏡として、この物語を使う試みである。
関連記事
| シリーズ・テーマ | 記事 | つながり |
|---|---|---|
| 書評 | 【B#186】生成AIの覇権をめぐる物語:DeepMindとOpenAI、2つの道 | Parmy Olson『Supremacy』に基づくOpenAI vs DeepMind の組織比較 |
関連サービス
- 脳と身体のメカニズムから、AIと認識の仕組みを体系的に学びたい方へ → 脳活講座(基礎編・統合編)
- 自分の認識のOSを対話で可視化し、判断の質を上げたい方へ → コーチング(個人・法人)
- 身体から認識のOSを書き換えたい方へ → ロルフィング・セッション
書籍情報:
- Sebastian Mallaby『The Infinity Machine: Demis Hassabis, DeepMind, and the Quest for Superintelligence』Penguin Press, 2026年3月31日刊行
- Max Bennett『A Brief History of Intelligence: Evolution, AI, and the Five Breakthroughs That Made Our Brains』Mariner Books, 2023年刊行
- Daniel Kahneman『Thinking, Fast and Slow』(『ファスト&スロー』) Farrar, Straus and Giroux, 2011年刊行
- Lisa Feldman Barrett『How Emotions Are Made: The Secret Life of the Brain』(『情動はこうしてつくられる』) Houghton Mifflin Harcourt, 2017年刊行
著者:大塚英文(Ph.D.)|渋谷を拠点に、ロルフィング・コーチング・脳活講座を提供。神経科学・哲学・身体知の交差点から、個人と組織の「認識の変容」を扱っている。


