コラム

DeepMindはなぜ囲碁の世界を制したか

2026.05.03
2026.05.17

Demis Hassabis編「認識のOSの諸刃」── 神経科学者のAGI観【第1回／全3回】

Sebastian Mallaby著『The Infinity Machine』（2026年3月刊）を読み解きながら、神経科学から始まったDemis Hassabisの旅路がAlphaGoという成功に至り、Transformerという見落としを生み、最終的に推論モデルへ立ち返るという過程を、「認識のOS」の考え方で読み直す全3回シリーズ。

全3回構成：

第1回：DeepMindはなぜ囲碁の世界を制したか ── 認識のOSが成功を生む構造 ★ 本記事
第2回：なぜDeepMindはTransformerを見落としたのか ── 同じOSが失敗を生む構造
第3回：DeepMindはなぜ推論モデルで報われたのか ── 同じOSが報われる構造

Table of Contents

はじめに：オーディオブックで出会った、ある天才の物語

Sebastian Mallaby著『The Infinity Machine: Demis Hassabis, DeepMind, and the Quest for Superintelligence』（2026年3月刊）をオーディオブックで聴いた。

Demis Hassabisは、現在Google DeepMindを率いるAI研究者であり、2024年のノーベル化学賞受賞者である。チェスの神童として5歳で頭角を表し、20代で神経科学のPhDを取得し、2010年にDeepMindを共同創業。AlphaGoで囲碁の世界王者を破り、AlphaFoldでタンパク質折り畳み問題を解いた。

ここまでなら「天才の成功物語」で済む。しかしMallabyの伝記が面白いのは、その物語の中に一つの致命的な見落としを組み込んでいることだ。HassabisはOpenAIに先を越され、Transformerの重要性を見抜けず、ChatGPTの衝撃を「庭にタンクを乗り入れられた」と受け止めることになる。

なぜ、これほど鋭敏な知性を持つ男が、AI史最大の転換点を見落としたのか。

この問いを追っていくと、本書は突然、私が長年MBLで追求してきたテーマと共鳴し始める ──認識のOSは、人を成功させる装置であると同時に、同じ局面で失敗させる装置でもある、という構造だ。

ここで言う『認識のOS』とは、私たちが世界をどう切り取り、何を当然と見なし、何が見えにくいかを決める、深層の認識枠組みのことだ。コンピュータのOSのように、すべての判断・思考・行動の土台で動いているが、当人にはほとんど見えない。MBLでは身体・対話・哲学を通じてこのOSを観察し、必要に応じて書き換えていく試みを続けてきた。

シリーズ第1回となる本稿では、まずHassabisがいかにして自らの認識のOSを構築し、それを通じてAlphaGoという歴史的成功を生み出したかを追う。シリーズ冒頭で挙げた過去のMBL記事3本を縦糸に使いながら、彼の旅路を読み解いていきたい。

1. Hassabisが立っている場所

Hassabisの旅路を読み解くために、一つの地図を手にする必要がある。

認知神経科学者マックス・ベネットは『A Brief History of Intelligence』で、人間の知性を5つの進化的ブレイクスルーとして整理した（詳細はB#198、また第2回で改めて扱う）。

ここで第1回に必要なのは一点だけだ ──Hassabisの全キャリアは、Bennettの第1〜第3のブレイクスルー（Steering=方向づけ、Reinforcing=学習の強化、Simulating=未来の予測）を計算機に翻訳することに費やされている。彼の博士研究は第3のSimulating（海馬による未来シミュレーション）の解読であり、AlphaGoはそれを計算機に実装した装置だった。

そして彼は第5のブレイクスルー（Speaking＝言語と文化）を見落とした ── これがTransformerの見落としの本質である。詳細は第2回で扱う。

2. Hassabisの認識のOS ──「脳の解読こそAGIへの王道」

DeepMindが2010年にロンドンで創業されたとき、Hassabisが掲げたミッションは挑発的だった ──「Solve intelligence. Then use it to solve everything else（知能を解決せよ。そしてそれを使って他のすべてを解決せよ）」。

そして達成方法への確信が独自だった ──「脳がどう動いているかを解読し、それを計算アーキテクチャに翻訳することこそ、AGIへの王道である」。

これは単なる方法論ではなく、ほとんど信仰に近い世界観だった。Hassabis自身、後にこう語っている：

“AGI must be a philosophical project, not just a technical one. It has to internalize human values.” （AGIとは、技術的な達成であると同時に、人間の価値観を内蔵した哲学的プロジェクトでなければならない）

知能には身体性が必要、多モーダル性が必要、エピソード記憶と想像力が必要、そして強化学習を介して育つ ── これら4つの柱を統合した先にAGIがある。AlphaGo、DQN、AlphaFoldはすべて、この世界観の延長線上にある。

このOSは強力だった。それまでの「シンボリックAI」（人間が記述したルールでAIを動かす伝統）の限界をHassabisは確信を持って見抜いていた。彼は別の道を見ていた ── 脳という、人類が知る唯一の汎用知能の実装例を、計算機の上に再現する道を。

そしてこのOSが、Hassabisを輝かしい成功に導く。

3. 博士研究 ── 海馬は「予測機械」である

Hassabisは2005年から2009年、UCL（ロンドン大学）のEleanor Maguire教授のもとで認知神経科学の博士号を取得した。研究テーマは海馬と記憶 ── まさにBennettの第3のブレイクスルー「Simulating」の神経基盤の解読だった。

海馬と新皮質 ── 二重の記憶システム

少し脳の働きを整理しておく。私たちの脳には、性質の異なる二つの記憶システムが共存している。

海馬は脳の奥にある小さな器官で、新しい経験を素早く・個別に記憶する。「昨日のあの会議」「先週のあの食事」のような、特定の出来事を瞬時にとらえる装置だ。

新皮質（neocortex）は脳の外側を覆う巨大な層で、こちらはゆっくり・統合的に学習する。「会議とはこういうもの」「食事とはこういうもの」という一般的な概念を、繰り返される経験から徐々に抽出していく。

二つは協力関係にある。睡眠中、海馬は日中の経験を新皮質へ「再生」して転送する。これが**メモリーコンソリデーション（記憶の固定化）**で、後にAlphaGoの前身DQNが採用した「経験再生（Experience Replay）」の生物学的モデルそのものだ。

衝撃の発見 ──「健忘症患者は未来を想像できない」

2007年、HassabisはPNAS誌に「Patients with hippocampal amnesia cannot imagine new experiences（海馬性健忘症患者は新しい経験を想像できない）」という論文を発表した。海馬両側に損傷を持つ患者は、過去の記憶を失うだけでなく、未来や架空のシーンを想像する能力も失っていたことを実証した研究だ。Science誌の「2007年のブレイクスルーTop 10」に選ばれている。

それまで「記憶」と「想像」は別の脳機能だと考えられていた。記憶は過去を扱う機能、想像は新しいものを生み出す機能 ── 別物だと。Hassabisの研究はその前提を根本から覆した。

構成的エピソード・シミュレーション仮説

ここからHassabisとMaguireが提唱したのが構成的エピソード・シミュレーション仮説である。

海馬は記憶を「録画再生」する装置ではない。過去の経験の断片（場所、人、物、感情）を、毎回その場で組み立て直してシーンを再構築している。そしてまったく同じ機構を使って、未来や架空のシーンも構築している。

つまり海馬は**「シーン構築装置」**だ。「明日の会議で何が起きるか」を想像するとき、私たちは過去の会議の断片（あの会議室、あの人の表情、あのときの議論の流れ）を組み合わせて、未来のシーンを構築している。記憶と想像は、同じ装置の異なる適用先にすぎない。

バレットの「予測機械」と重なる視点

ここで、別記事「『感情はコントロールできない』は本当か」で扱ったリサ・フェルドマン・バレットの理論と深く重なる視点が浮かび上がる：

脳は本質的に「予測機械」だ。外から入ってくる感覚情報をそのまま処理しているのではない。過去の経験をもとに「次に何が起きるか」を常に先取りして予測し、現実とのズレを修正し続けている。

バレットが脳全体を「予測機械」と捉えるとすれば、Hassabisはその予測機械の中核にある海馬の働きを解読したと言える。海馬がシーンを次々と構築できるからこそ、脳は「これから何が起きるか」を予測できる。そして実際に起きたことと予測のズレから、脳は学習する。

脳は反応する機械ではなく、予測する機械である ── この共通認識を、Hassabisは後にDeepMindでAIに翻訳することになる。海馬が脳の中でやっていることを、計算機の上で再現するのだ。

4. KahnemanのSystem 1/2 ── 認識のOSの二重構造

Hassabisが博士研究を進めていた頃、もう一つの重要な認知科学のフレームワークが普及しつつあった。Daniel KahnemanがThinking, Fast and Slow（2011）で大衆化した二重過程理論である。

詳細は「認識のOSにバグがある」で扱ったが、要点はこうだ。

System 1：速い、自動的、努力なし、直感。 System 2：遅い、意識的、努力的、熟慮。

人間の意思決定は、この二つの協調で成り立っている。直感（System 1）が瞬時に候補を絞り、熟慮（System 2）がそれを検証する。チェスの達人が一目で「この辺りに打つべき」と感じ、その上で「もし相手がこう来たら…」と先を読むのも、この協調だ。

Hassabisが博士研究で見たもの ── 海馬による予測・シーン構築 ── は、まさにこの二重過程の生物学的基盤だった。海馬・新皮質・前頭前野の連携で、直感が探索空間を絞り、熟慮が確認する。

「この構造を機械に翻訳すれば、機械もまた同じように『考える』はず」 ── これがHassabisの確信だった。次節で見ていくAlphaGoの3層構造は、まさにその確信の実装である。

5. AlphaGoの遺伝子 ── ブレイクスルー1〜3を計算機に翻訳する

Hassabisの博士研究の成果をAIに翻訳すると、どうなるか。答えは明確だ ──「過去の経験から内的モデルを作り、それを使って未来をシミュレートして判断する」装置を作ればよい。これがAlphaGoの設計思想の根幹である。

DQNと「経験再生」── 2つの伝統の最初の統合

AlphaGoに先立つ2013年から2015年、DeepMindは**DQN（Deep Q-Network）**でAtariゲームをプレイするAIを発表した。

DQNが歴史的に意味を持つのは、それまで別世界で動いていた2つのAI研究の伝統を最初に統合した装置だったからである。トロント派（Geoffrey Hinton 系統の深層学習）はパターン認識で躍進していたが「行動を学ぶ」ことは扱えなかった。アルバータ派（Richard Sutton、David Silver 系統の強化学習）は行動と報酬の理論を持っていたが、複雑な視覚入力を処理する手段がなかった。

統合を可能にした技術的な飛躍はこうだ ── それまでの強化学習は、人間が手作業で整理した「状況の特徴」を必要としていた。DQNは深層学習にその仕事を任せ、生のピクセルから自動的に「どんな状況か」を理解できるようにし、その理解を強化学習が受け取って行動を選ぶ ── この分業が一つのニューラルネットワーク上で初めて実現された。2つの伝統の歴史的結婚だった。

そしてDQNには、もう一つ生物学的な発想が組み込まれていた。**Experience Replay（経験再生）という仕組みで、エージェントは経験を「記憶バッファ」に溜め込み、ランダムに過去の経験を取り出して繰り返し学習する。これは睡眠中に海馬が経験を再生して新皮質に転送する現象（メモリーコンソリデーション）**の直接の模倣である。Hassabis の博士研究で見た海馬の働きが、ここで初めてAIに翻訳された。

Bennettの枠組みで言えば、DQNは第1（Steering）と第2（Reinforcing）のブレイクスルーを統合した装置だった。AlphaGoは、ここに第3のブレイクスルー（Simulating）を上乗せした装置である。

AlphaGoの3層構造

2016年に世界王者・李世乭を破ったAlphaGoは、3つの異なるコンポーネントの合体物だった。

Policy Network（方策ネットワーク） ── 盤面を見て、瞬時に候補手を絞り込む。プロ棋士の棋譜3000万手を学習している。囲碁盤には合法手が200手近くあるが、達人は一目見て「検討に値するのはこの5〜6手だな」と絞り込む。Policy Networkがやっているのはこれだ。直感＝System 1に相当する機能。

Value Network（価値ネットワーク） ── 盤面を見て「この局面、自分が勝つ確率は何%か」を一目で判定する。具体的な手順を考えずに「これは勝っている」「これはマズい」と感じる、あの「形勢判断」の感覚である。これもSystem 1的な直感だが、Policy Networkとは別種 ──「何をすべきか」ではなく「今どんな状態か」を答える。

MCTS（モンテカルロ木探索）── 第3のブレイクスルーの実装 ── ここから先がSystem 2だ。Policy Networkが絞った候補手それぞれについて、「ここに打ったら相手はこう来る、それに対して自分はこう…」と先読みの木を展開する。何手も先までシミュレーションし、Value Networkで評価し、最善経路を選ぶ。これは熟慮＝System 2であり、本質的にHassabisが博士研究で発見した**「海馬による未来シーン構築」**の計算実装である。

統合 ── 直感が探索を効率化する

MCTSだけだと、囲碁の組み合わせは10の170乗で、宇宙の原子数より多い。総当たり的に全部読むのは不可能だ。

そこでPolicy Networkが「まずこの5手だけ検討すればいい」と入口を絞る。MCTSがその5手それぞれについて先を読む。読み切れない場合、Value Networkが「ここで打ち切っても勝率0.65だから良さそう」と評価する。

つまりPolicy Networkが探索の幅を絞り、Value Networkが探索の深さを節約する。直感（System 1）が熟慮（System 2）を効率化するわけだ。

訓練の3段階 ── Coaching → Playing → Studying

AlphaGoがこの3つのネットワークを獲得するまでには、段階的な訓練プロセスがあった。シンプルなメタファーで表すなら、Coaching → Playing → Studying という3段階だ。

Coaching（コーチング）── 人間に学ぶ段階

Policy Networkは、まずプロ棋士の棋譜3000万手を「教師」として学習する。「こういう局面ではプロはこう打つ」というパターンを覚える、いわばコーチに教わる弟子の段階だ。

Playing（プレイング）── 自分と戦う段階

次に、その学習したPolicy Networkを自分自身の旧バージョンと何百万回も対戦させる。勝った手は強化し、負けた手は弱める。ここで機械は人間の弟子から自分の先生へと転じる。学ぶ相手は、もはやプロ棋士ではなく、自分自身だ。

Studying（スタディング）── 自分を評価する段階

自己対戦で生まれた数百万局の勝敗データから、Value Networkを訓練する。「この局面なら勝率0.72」と一目で判定する能力を獲得する。盤面を一目で「読む」研究者の段階だ。

この3段階 ──人に学び、自分と戦い、自分を評価する ── を経て、AlphaGoは人間の知識を出発点にしながら、最終的には人間を超える領域に到達した。

ちなみにDeepMindの研究プロセス自体も、この順序で進んだ。Atari の DQN は Studying（価値学習）が中心だった。そこに Playing（自己対戦）を組み合わせたことで、AlphaGo の飛躍が生まれた ── Hassabis 自身が本書で繰り返し強調しているポイントだ。

Move 37 ── 機械が直感を獲得した瞬間

2016年3月、李世乭との第2局。AlphaGoが打ったMove 37は、世界中の解説者を困惑させた。プロ棋士の常識から見て「意味不明な場所」に石を置いたのだ。観戦中の世界トップ棋士は「これは間違いだ」と言って盤からその石を取り除いてしまったほどだった。

しかし30数手後、その意味が現れる。AlphaGoは何世紀にもわたる人類の対局が見逃していた、新しい形を発見していた。

この瞬間、機械はもはや「人間の直感を真似る」段階を超えていた。自己対戦による強化学習を通じて、機械は人間の誰も持っていない直感を獲得していたのだ。

自己対戦（self-play）── データの天井を取り払う発想

ここからが、AlphaGoの遺伝子の最も革命的な部分だ。

AlphaGoの後継として2017年に発表されたAlphaZeroは、さらに踏み込んだ。前段階のCoaching を完全に飛ばし、人間の棋譜を一切使わず、ルールだけを教えられて、いきなりPlayingから始める ── 自分自身と何百万回も対戦することで、ゼロから世界最強になった。

この発想の革命性は、データの天井を取り払ったことにある。人間の棋譜は有限だが、自己対戦で生成される対局は無限。さらに重要なのは、強化学習の報酬信号が完全に客観的であること ──「勝った／負けた」は議論の余地がない。だから機械は、人間の判断や好みに縛られず、純粋に勝率を上げる方向に進化できる。

Move 37は、まさにこの過程で生まれた一手だった。人間の棋譜には存在しなかった形 ── つまり人類の経験の天井を超えたところで、機械が発見した直感だ。

この「自己対戦による無限のデータ生成」という発想は、本シリーズの後半で決定的に重要になる。第3回で扱うLLMの世界では、まさに**「データの天井」が壁となり、その壁を超えるためにAlphaGoが解いたのと同じ問題**に業界全体が直面することになるからだ。

AlphaGoの遺伝子 ── 何を継承するのか

Bennettの枠組みで言えば、AlphaGoは第1〜3のブレイクスルーを完全に統合し、しかも人間を超える領域に到達した装置だった。Hassabisの認識のOSは、ここで最大の正しさを証明した。

そしてこの装置の中核には、3つの要素が組み込まれている：

二重過程の協調（System 1としての直感ネットワーク × System 2としての探索）
自己対戦による無限のデータ生成（人間の経験の天井を超える仕組み）
客観的な報酬信号による評価（勝敗という議論の余地のない基準）

この3要素が「AlphaGoの遺伝子」だ。第3回で見ていくように、この遺伝子は10年後にLLMの世界に蘇ることになる。

第1回のまとめと、第2回への問い

AlphaGoの成功は、Hassabisの認識のOSが最大の正しさを証明した瞬間だった。神経科学博士の知見が、計算機の上で人間を超える知性を生み出した。Bennettの第1〜3のブレイクスルーを、誰もが認めざるを得ない形で実装してみせた。

「脳の解読こそAGIへの王道」── この信念は、AlphaGoによって完全に裏付けられた。

しかしここから、本書最大のドラマが始まる。同じ認識のOSが、次の局面で致命的な見落としを生む。

2017年、Hassabisと同じGoogle傘下の別の研究組織から、AI史を変える論文が発表される。それを彼は見落とす。2022年、その論文をスケールアップした製品が世界を席巻する。彼は「敵が我々の正面の庭にタンクを乗り入れた」と語ることになる。

なぜ、これほど鋭敏な知性が、見落とすのか。次回はその構造を、認知バイアスと脳の予測モデルの観点から読み解いていく。

▶ 次回：なぜDeepMindはTransformerを見落としたのか ── Demis Hassabis編「認識のOSの諸刃」第2回／全3回

本シリーズの読み解きの骨組み

過去のMBL記事3本を縦糸に使う：

【B#198】神経科学 × 進化生物学 × 人工知能：知性の本質を探る5つの視点 ── マックス・ベネット『A Brief History of Intelligence』の5つのブレイクスルー枠組み
「感情はコントロールできない」は本当か──脳の予測メカニズムから感情を理解する ── リサ・フェルドマン・バレットの予測機械理論
認識のOSにバグがある──「直感」と「熟慮」という2つの回路 ── KahnemanのSystem 1/2、Siegelの「蓋が開く」、Barrettの「予測の固着」

これは単なる本の感想ではなく、自分の認識のOSを観察するための鏡として、この物語を使う試みである。

シリーズ・テーマ	記事	つながり
書評	【B#186】生成AIの覇権をめぐる物語：DeepMindとOpenAI、２つの道	Parmy Olson『Supremacy』に基づくOpenAI vs DeepMind の組織比較

DeepMindはなぜ囲碁の世界を制したか

はじめに：オーディオブックで出会った、ある天才の物語

1. Hassabisが立っている場所

2. Hassabisの認識のOS ──「脳の解読こそAGIへの王道」

3. 博士研究 ── 海馬は「予測機械」である

海馬と新皮質 ── 二重の記憶システム

衝撃の発見 ──「健忘症患者は未来を想像できない」

構成的エピソード・シミュレーション仮説

バレットの「予測機械」と重なる視点

4. KahnemanのSystem 1/2 ── 認識のOSの二重構造

5. AlphaGoの遺伝子 ── ブレイクスルー1〜3を計算機に翻訳する

DQNと「経験再生」── 2つの伝統の最初の統合

AlphaGoの3層構造

統合 ── 直感が探索を効率化する

訓練の3段階 ── Coaching → Playing → Studying

Move 37 ── 機械が直感を獲得した瞬間

自己対戦（self-play）── データの天井を取り払う発想

AlphaGoの遺伝子 ── 何を継承するのか

第1回のまとめと、第2回への問い

なぜ、これほど鋭敏な知性が、見落とすのか。次回はその構造を、認知バイアスと脳の予測モデルの観点から読み解いていく。

本シリーズの読み解きの骨組み

関連記事

関連サービス

関連記事

【B#253】伊藤憲二『励起』を読んで④──仁科芳雄先生...

【B#257】選ばれる、ではなくどのようにメッセージを届...

【P#44】コロナワクチンの接種は１人１人が情報を収集し...

【W#86】ペルー（７）〜Lares Trek

【E#214】５周年を迎えて（６）〜２つのセミナー案〜...

【P#60】亜鉛の欠乏と新型コロナとの意外な関係性〜亜鉛...

2026年5月
日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

はじめに：オーディオブックで出会った、ある天才の物語

1. Hassabisが立っている場所

2. Hassabisの認識のOS ──「脳の解読こそAGIへの王道」

3. 博士研究 ── 海馬は「予測機械」である

海馬と新皮質 ── 二重の記憶システム

衝撃の発見 ──「健忘症患者は未来を想像できない」

構成的エピソード・シミュレーション仮説

バレットの「予測機械」と重なる視点

4. KahnemanのSystem 1/2 ── 認識のOSの二重構造

5. AlphaGoの遺伝子 ── ブレイクスルー1〜3を計算機に翻訳する

DQNと「経験再生」── 2つの伝統の最初の統合

AlphaGoの3層構造

統合 ── 直感が探索を効率化する

訓練の3段階 ── Coaching → Playing → Studying

Move 37 ── 機械が直感を獲得した瞬間

自己対戦（self-play）── データの天井を取り払う発想

AlphaGoの遺伝子 ── 何を継承するのか

第1回のまとめと、第2回への問い

なぜ、これほど鋭敏な知性が、見落とすのか。次回はその構造を、認知バイアスと脳の予測モデルの観点から読み解いていく。

本シリーズの読み解きの骨組み

関連記事

関連サービス

関連記事

【B#253】伊藤憲二『励起』を読んで④──仁科芳雄先生...

【B#257】選ばれる、ではなくどのようにメッセージを届...

【P#44】コロナワクチンの接種は１人１人が情報を収集し...

【W#86】ペルー（７）〜Lares Trek

【E#214】５周年を迎えて（６）〜 ２つのセミナー案〜...

【P#60】亜鉛の欠乏と新型コロナとの意外な関係性〜亜鉛...

【E#214】５周年を迎えて（６）〜２つのセミナー案〜...