コラム

DeepMindはなぜ推論モデルで報われたのか

2026.05.17
2026.05.18

Demis Hassabis編「認識のOSの諸刃」── 神経科学者のAGI観【第3回／全3回】

Sebastian Mallaby著『The Infinity Machine』（2026年3月刊）を読み解きながら、神経科学から始まったDemis Hassabisの旅路がAlphaGoという成功に至り、Transformerという見落としを生み、最終的に推論モデルへ立ち返るという過程を、「認識のOS」の考え方で読み直す全3回シリーズ。

全3回構成：

第1回：DeepMindはなぜ囲碁の世界を制したか ── 認識のOSが成功を生む構造
第2回：なぜDeepMindはTransformerを見落としたのか ── 同じOSが失敗を生む構造
第3回：DeepMindはなぜ推論モデルで報われたのか ── 同じOSが報われる構造 ★ 本記事

Table of Contents

はじめに：第2回の振り返り

前回（第2回：なぜDeepMindはTransformerを見落としたのか）では、Hassabisが自分の成功を支えた認識のOSによって、AI史最大の転換点を見落とした構造を読み解いた。これは個人の知性の欠如ではなく、脳の予測機械としての構造的特性 ──「予測の固着」や「蓋が開く」現象 ── によって、誰の中にも起きうる必然だ、と。

ではどうすればいいのか。第3回では二つの道を扱う。一つはHassabis自身が辿った道 ── 外部からの強い衝撃によって徐々にOSをアップデートしていく過程。もう一つは、私自身が博士課程から製薬会社、そしてロルフィングへと辿ってきた、能動的に認識のOSを揺さぶり続ける道である。

12. 反転 ── 第6のブレイクスルーとしての統合知性

しかし、本書の物語はここで終わらない。むしろここから、最も知的に興味深い反転が起きる。

純粋スケーリングの限界 ── データの天井、再び

ChatGPT登場後の数年（2022〜2024）、業界は「事前学習をひたすらスケールアップ」する路線で走っていた。GPT-3、GPT-4と巨大化するたびに賢くなる、と。

しかし2024年頃、データの壁が現実になる。良質なインターネットテキストはほぼ食い尽くされ、これ以上のスケールアップの伸びが鈍化したのだ。

ここで第1回で扱った「データの天井」問題が、別の形で帰ってきたことに気づく。AlphaGoの世界では、人間の棋譜の有限性が壁だった。LLMの世界では、インターネット上の人間が書いたテキストの有限性が壁になった。同じ構造の問題が、別のドメインで再演されている。

第5のブレイクスルーを独立に実装したTransformerは、テキストという「素材」を食い尽くした時点で、限界に達した。第5だけでは、AGIには届かないことが見えてきた。

そして業界が向かったのは、AlphaGoがすでに解いていた問題への帰還だった。それはまさにBennettの言う「第6のブレイクスルー」── 統合知性（Integrated AI）の方向である。

B#198の終盤で、私はこう書いた。

Bennettは、本書の終盤で「次なる地平」として、統合された人工知能（Integrated AI）の可能性を語っている。

それは、言語・感情・倫理・身体性・社会的関係性といった多次元を統合し、より”人間的な”知性へと近づくプロセスであり、同時に”人間を超える”知性の萌芽でもある。

そしてこの統合の最初の実装が、推論モデルだった。

推論モデルの登場 ── AlphaGoの遺伝子がTransformerに乗る

OpenAI o1（2024年9月）、DeepSeek R1（2025年1月）、Google Gemini Deep Thinkなどの推論モデルは、構造的にAlphaGoの考え方を取り入れたものである。

第1回で整理した「AlphaGoの遺伝子の3要素」が、それぞれLLMの世界に移植されている：

①二重過程の協調 ── 事前学習済みLLM（System 1としての直感）の上に、Chain of Thought（System 2としての思考連鎖）が乗る。問題を分割し、複数の推論経路を生成し、自己評価する。

②自己対戦による無限のデータ生成 ── 検証可能な問題（数学・コード）で、機械が自分自身で推論を生成する。これがインターネットテキストの「データの天井」を超える鍵になっている。AlphaGoが囲碁の自己対戦でやったことを、LLMが推論連鎖の自己生成でやっている。

③客観的な報酬信号 ── 数学の解答が正しいか、コードがテストを通るか ── これらは「勝った／負けた」と同じく議論の余地がない。だから機械は、人間の評価の限界を超えて進化できる。

つまりTransformer（第5のブレイクスルー）の上に、AlphaGoの遺伝子（第1〜3のブレイクスルー＋自己対戦＋客観的報酬）を乗せたわけだ。

これこそが、Bennettが予見した「Integrated AI＝第6のブレイクスルー」の最初の輪郭である。第5を独立に積み上げてきた系譜（OpenAI）と、第1〜3を深く耕してきた系譜（DeepMind）が、ここで合流した。

Studying から Playing へ ── Hassabisの予言が実証される

第2回で見た通り、HassabisはLLM全盛期にあっても「LLMはStudying段階に閉じ込められている、本物の飛躍はPlayingを組み込んだときに来る」と信じていた。当時これは時代遅れの主張に聞こえた。

しかし2024年以降、彼の予言は遅れて実証された。OpenAI o1、DeepSeek R1、Gemini Deep Think などの推論モデルは、検証可能な領域（数学・コード）で機械が自分の推論を試し、結果から学ぶ ── まさにLLMのStudying → Playing への移行だった。

そしてこの移行が決定的だったのは、第1回で見たAlphaGoの飛躍と同じ構造を持っていたから ──①データの天井を破る（無限の推論データ生成）、②人間の限界を継承しない（人間が試したことのない推論経路の発見）、③真理の判定基準が変わる（権威ではなく結果に基づく）。

Hassabisの哲学が、形を変えて勝つ

ここに本書最大の知的ねじれが効いてくる。

Hassabisは言語モデルの登場時点では負けていた。OpenAIに先を越され、Transformerの重要性を見落とし、ChatGPTの衝撃に「タンクが乗り入れた」と反応した。

しかしAGIの最終形が「RLで自己推論する機械」になりつつある今、彼の長年の路線は完全に間違いではなかったことが明らかになりつつある。

Transformerは土台に過ぎず、その上にHassabis的な認知アーキテクチャ（第1〜3のブレイクスルー）を乗せる必要があった。

つまり結末は「Hassabisが見えていた未来は正しかったが、途中の経路を読み違えた」というものになる。

13. 認識のOSへの含意 ── 成功と失敗を、同じ枠組みが生む

Hassabisの物語が示すのは、認識のOSはニュートラルではないということだ。それは世界の特定の切り取り方を強制する装置である。バレットの言葉を借りれば、それは予測モデルであり、新しい経験を「過去のパターン」に当てはめて処理してしまう装置だ。

そして本書最大の教訓は ──同じ認識のOSが、人を成功に導くと同時に、失敗にも導くということ。

HassabisをAlphaGoの歴史的成功に導いたのは、彼の「脳模倣＝AGIへの道」というOSだった。しかしそのOSこそが、Transformerを見落とす原因にもなった。全く同じOSが、両方の結果を生んでいる。

認識のOSは身体に埋め込まれている

ここで重要なのは、認識のOSは「頭の中」だけにあるものではない、ということだ。バレットの予測機械の理論が示すのは、予測モデルは身体の内受容感覚（interoception）と深く結びついているということ。

「感情はコントロールできない」で書いた通り：

内受容感覚とは、心拍・呼吸・内臓の状態・筋肉の緊張など、身体の内側から来る感覚のことだ。私たちは普段これを意識しないが、脳は常にこの情報を受け取り、処理している。

感情は、この内受容感覚に「意味づけ」が加わって生まれる。

これは感情だけの話ではない。思考も判断も、身体の状態と切り離せない。認識のOSは抽象的な思想ではなく、身体に深く埋め込まれた予測パターンとして、絶えず更新されている。

これは、認識のOSをアップデートするためには、頭だけでは不十分だということでもある。身体に問いを向ける、内受容感覚を整える、新しい身体的経験を取り入れる ── これらが、固着した予測モデルを揺さぶる入り口になる。

14. 私自身の認識のOSの旅 ── 博士から製薬、そしてロルフィングへ

Hassabisは、自分の認識のOSをアップデートするのに、外部からの強い衝撃（ChatGPTショック）を必要とした。これは「予測の固着」がいかに強固か、そして自分のOSがいかに「内側からは見えない」かをよく示している。

しかし、認識のOSのアップデートはもっと能動的にできるはずだ ── 私はそう信じている。なぜなら、私自身、人生の中で何度か大きくOSを書き換えてきた経験があるからだ。

博士課程 ── 分析と仮説検証の認識のOS

20代の私は、研究者として育てられた。仮説を立て、実験で検証し、論文として世界に提示する。「正しさ」は外部の客観性 ── 統計的有意性、再現性、ピアレビュー ── によって担保される。

このOSの中では、身体は道具だった。長時間の実験、徹夜の解析、データを前にした集中。身体は意識のための「乗り物」で、目的は知的成果だった。

このOSは強力だ。世界を「測定可能な変数の集まり」として切り取り、現象を分析的に理解できるようにする。私は科学的方法論を深く内面化した。

製薬会社 ── 医療現場と市場の認識のOS

博士課程を出たあと、私は外資系製薬会社で神経内科領域のメディカル・マーケティング業務に従事した（2011〜2014年）。担当したのは多発性硬化症治療薬 natalizumab（タイサブリ）の日本ローンチで、開発申請段階から関わった。

ここで認識のOSが大きく揺さぶられた。

博士課程では「正しさ」を論文で測っていたが、製薬では患者の人生を実際にどう変えるかが問われる。医師との対話、薬剤の使用感、副作用の管理、製品の市場での位置づけ ── これらは博士課程の論理だけでは扱いきれない。

科学的根拠（エビデンス）と、市場の力学と、患者個人の選択と、医療経済の制約。これら複数の論理が同時に走る世界で、私は「正解は一つではない」という認識を身につけた。博士課程のOSが「真実か偽か」を扱っていたとすれば、製薬でのOSは「この状況で何が最善か」を扱っていた。

そして、これは博士課程のOSとは決定的に異なる構造を持っていた。

ロルフィングへの転回 ── 身体と統合の認識のOS

製薬会社を辞めて、ロルフィングの道に入ったとき、もう一度、認識のOSが根本から書き換えられた。

ロルフィングでは、身体が中心になる。客観性ではなく、クライアントの主観的経験。言葉ではなく、触覚で取る情報。論文ではなく、1セッション後にその人がどう感じたか。

最初は戸惑った。博士課程と製薬会社で20年近く磨いてきたOS ── 分析、エビデンス、論理 ── が、この世界では十分に機能しない。「触れて感じる」という能力は、教科書では学べない。

しかしロルフィングを続けるうちに気づいた。これは前の2つのOSが「相手にしてこなかった領域」を中心に据えるOSだ。博士課程は身体を道具として扱った。製薬は身体を治療対象として扱った。ロルフィングは身体を「私たちが世界を認識する装置そのもの」として扱う。

これがバレットの言う内受容感覚の領域であり、ダマシオのソマティック・マーカーの領域だ。身体は意識より先に答えを持っている。この洞察は、論理的な議論からは到達できない。身体を通してしか分からない。

3つのOSを行き来する

今、私は3つのOSを使い分けている。

研究者の分析的OS、医療現場の統合的判断OS、ロルファーの身体的・直感的OS。どれかが「正しい」のではない。それぞれの局面で、最も役立つOSを起動する。

これは結果的に、Hassabisが今、強いられている課題と同じことを、私は能動的にやってきたのかもしれない、と思う。一つのOSに固着しないこと。複数のOSを行き来できる柔軟性を保つこと。新しいOSを身体に統合できる余地を残すこと。

Coaching → Playing → Studying は、守破離だった

第1回で見たAlphaGoの訓練プロセス ── Coaching → Playing → Studying ── は、日本の伝統芸能が古くから知っていた守破離の構造そのものだ。師の型を完璧に真似る「守」、型を破って自分の道を見つける「破」、型から離れて独自の境地を開く「離」。私自身、能楽を井上公子先生のもとで稽古する中で、この構造を身体で経験してきた。

そして振り返ってみれば、私の人生そのものも同じ構造だった。博士課程は文献を読み、実験を設計し、論文を書く ── Studying 中心の世界。製薬会社で初めて医療現場という世界に介入し、決断と結果のループに入った ── Playing への移行。ロルフィングで身体という最も直接的な Playing の場に飛び込んだ。

DeepMindの研究者たちが計算機の上で実装したのは、人類が何千年も前から知っていた達人になるプロセスだった。Hassabis が AI について語っていることは、能楽の話でもあり、ロルフィングの話でもあり、認識のOSの話でもある。

毎年テーマを変えて読む実践

OSの柔軟性を保つために、私は2010年から毎年読書のテーマを決めて、その分野を1年集中して読む実践を続けてきた。

2010年  西洋哲学、中国古典（論語など）
2011年  建築、アート（モダンアート）
2012年  食（職人）、インド（ヨガ）
2013年  解剖学、文化人類学（レヴィ・ストロース）
2014年  デザイン、落語
2015年  近代史、発生学
2016年  睡眠、食事
2020年  ソーシャルネットワークと資本主義
2021年  第二次世界大戦と科学
2022年  分子栄養学の歴史
2023年  健康長寿と科学
2024年  人工知能と人類学
2025年  量子力学、組織、認知科学
2026年  宇宙開発、仏教

なぜ1年単位なのか。1冊では認識のOSは揺さぶれないからだ。10冊、20冊と同じ分野を読み込んでようやく、その分野固有の「世界の切り取り方」が自分の中に入ってくる。

なぜ毎年違うテーマなのか。一つの分野に居続けると、その分野のOSに固着してしまうからだ。意図的に違う分野を当てて、自分の中の予測モデルを揺さぶり続ける必要がある。

2010年の西洋哲学と中国古典は、思考の枠組みそのものを問い直した。2012年のインド・ヨガは、身体への接続を開いた。2013年の文化人類学（特にレヴィ・ストロース）は、「自分が当然と思っている世界の構造が、実は文化に依存している」ことを叩き込んだ。2024年の人工知能と人類学の組み合わせは、まさに本稿のHassabisの読み解きを可能にした。

これは知的趣味ではない。自分の認識のOSに毎年「外部からの衝撃」を意図的に与える実践だ。Hassabisがやむを得ず受けたChatGPTショックのようなものを、私は能動的に、自分の人生のリズムとして組み込んでいる。

そしてこの実践がなければ、おそらく私の認識のOSは、博士課程あたりで固着していただろう。

結びに ── 自分の認識のOSをアップデートする

『The Infinity Machine』をオーディオブックで聴きながら、私は何度か立ち止まった。

Hassabisが見落としたTransformerの話を聞いていたとき、私自身が何を見落としているだろうか、と思った。私の人生を支えてきた認識のOS ── 身体・対話・哲学を通じた認識の更新という枠組み ── は、私を多くの場所に運んできた。しかしそれは、何を見えにくくしているのか。

これは答えの出る問いではない。むしろ問い続けること自体が、認識のOSの硬直化を防ぐ唯一の方法かもしれない。

Hassabisの物語が美しいのは、彼が今もまだ旅の途中だからだ。ノーベル化学賞を獲り、Google DeepMindのトップに立ち、AGIへの道を最前線で切り開いている彼でさえ、自分の認識のOSをアップデートし続けている。失敗から学び、敗北から学び、衝撃から学んでいる。

Bennettが予言した「第6のブレイクスルー＝統合知性」は、まだ完成していない。人類は、生物進化が6億年かけて積み上げてきた第1〜5のブレイクスルーを、別の経路で、別の順序で、計算機の上に再構築している。

そしてその再構築は、私たち一人ひとりの中でも、毎日、静かに起きている。自分の認識のOSという、もう一つの「進化中の知性」の中で。

私が今あなたに伝えたいのは、シンプルなことだ。自分の認識のOSは、能動的にアップデートできる。外部からの衝撃を待つ必要はない。意図的に違う世界に触れ、違う身体経験を取り入れ、違う論理を内側に通すことで、OSは柔軟さを保ち続けられる。

そしてそれは、知的な探究の楽しみであると同時に、自分の人生を、より広い世界に開き続ける営みでもある。

Hassabisの物語を、この営みを始めるきっかけとして読んでもらえたら、嬉しい。

◀ 前回：なぜDeepMindはTransformerを見落としたのか ── Demis Hassabis編「認識のOSの諸刃」第2回／全3回

◀◀ 第1回から：DeepMindはなぜ囲碁の世界を制したか ── Demis Hassabis編「認識のOSの諸刃」第1回／全3回

本シリーズの読み解きの骨組み

過去のMBL記事3本を縦糸に使う：

【B#198】神経科学 × 進化生物学 × 人工知能：知性の本質を探る5つの視点 ── マックス・ベネット『A Brief History of Intelligence』の5つのブレイクスルー枠組み
「感情はコントロールできない」は本当か──脳の予測メカニズムから感情を理解する ── リサ・フェルドマン・バレットの予測機械理論
認識のOSにバグがある──「直感」と「熟慮」という2つの回路 ── KahnemanのSystem 1/2、Siegelの「蓋が開く」、Barrettの「予測の固着」

これは単なる本の感想ではなく、自分の認識のOSを観察するための鏡として、この物語を使う試みである。

シリーズ・テーマ	記事	つながり
書評	【B#186】生成AIの覇権をめぐる物語：DeepMindとOpenAI、２つの道	Parmy Olson『Supremacy』に基づくOpenAI vs DeepMind の組織比較

DeepMindはなぜ推論モデルで報われたのか

はじめに：第2回の振り返り

12. 反転 ── 第6のブレイクスルーとしての統合知性

純粋スケーリングの限界 ── データの天井、再び

推論モデルの登場 ── AlphaGoの遺伝子がTransformerに乗る

Studying から Playing へ ── Hassabisの予言が実証される

Hassabisの哲学が、形を変えて勝つ

13. 認識のOSへの含意 ── 成功と失敗を、同じ枠組みが生む

認識のOSは身体に埋め込まれている

14. 私自身の認識のOSの旅 ── 博士から製薬、そしてロルフィングへ

博士課程 ── 分析と仮説検証の認識のOS

製薬会社 ── 医療現場と市場の認識のOS

ロルフィングへの転回 ── 身体と統合の認識のOS

3つのOSを行き来する

Coaching → Playing → Studying は、守破離だった

毎年テーマを変えて読む実践

結びに ── 自分の認識のOSをアップデートする

Hassabisの物語を、この営みを始めるきっかけとして読んでもらえたら、嬉しい。

本シリーズの読み解きの骨組み

関連記事

関連サービス

関連記事

【E#16】探すものをやめたときに、探していたものが見つ...

【E#283】選ばれる人＆うまくいく人──松下公子さん ...

【Y#45】プラーナーヤーマ・連続講座（４）〜渋谷開催の...

【N#132】食と健康の判断をしていく上で⑤〜健康な食事...

【E#131】フィンスイミング日本代表から学ぶビジネス思...

【J#22】字を書くとは～身体感覚と心との関係

MBLを知る

2026年5月
日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31