シリコンバレー

Anthropicという会社の認識のOS── 未来を考えるDario、価値観を考えるAmanda、内部構造を理解しようとするOlah

2026.06.08

Table of Contents

はじめに：なぜ、Anthropicか？

この1ヶ月、ClaudeのMaxプランを本格的に使ってみた。

非常に頭が良く、人と対話している感覚がある。質問にしっかり答え、脱線しても知識が豊富だから、そこからまた話が広がっていく。一方で、細部を詰めると本来の目的から逸れることもあり、大枠や目的を伝え直す場面が何度かあった。思考の重いセッションはトークンの消費が速く、同じセッション内で進めないと、次に引き継ぐ情報が増えてしまう。

ハンドオフファイルを作るなどの工夫が要ることも学んだ。URLを読み込ませても本文を取れないことがあり、テキストを貼る手間もあった。それでも一番の収穫は、AIに「直感」を感じたことだ。自分のホームページ（ブログ）の内容を大量に渡すと、それを踏まえて、サイトに合うキーワードを考えてくる。検索ではなく、文脈をつかんで提案してくる感覚に驚いた。

この体験から、Claudeがどんな原理で動くのか、そしてそれを作るAnthropicがどんな会社なのか？深く知りたいと思うようになった。

実は、Claudeについて書かれた本は、洋書を含めてまだほとんどない（OpenAI、DeepMind、xAIとは対照的）。しかし、コロナ禍をきっかけに海外のポッドキャストが盛んになった。健康や脳科学ならPeter AttiaやAndrew Huberman、人工知能ならLex Fridman、スタートアップならReid Hoffman、といった具合に情報が得られやすくなった。

なかでも、コンピューター科学者でもあるLex Fridmanのポッドキャストには、人工知能に関わる経営者や科学者が多く出演する。２～３時間に及ぶインタビューから学ぶことが本当に多い。

そのLex Fridmanのポッドキャストで、AnthropicのCEOであるDario Amodeiのインタビューを聴いた（何と、インタビューは、5時間以上）。

この動画を YouTube で視聴

当初、Dario Amodeiのインタビューだと思って聞き始めたのだが、Amanda Askell、Chris OlahというAnthropicの中核を担う二人も登場している。拝聴してみると、単なるCEOインタビューではなく、Anthropicという会社の「認識のOS」を立体的に見せてくれる非常に面白い対話だった。

人工知能の本を集中的に読んでみて

2024年の1年間、私は人工知能に関する本を集中的に読んできた。結果的に、OpenAIを扱った『Supremacy: AI, ChatGPT and the Race That Will Change the World』、DeepMind創業者Demis Hassabisの伝記『The Infinity Machine』、そしてKaren Haoの『Empire of AI』等に出会った。

それぞれ拝読した感想として。

DeepMindは、神経科学と認知科学の延長線上にある会社として見えてくる。Demis Hassabisはゲームを極めた後、あえて神経科学の博士課程に進み、「知能とは何か」という問いを追い続けた。その延長としてAlphaGoがあり、AlphaFoldがあり、DeepMindがある。

OpenAIから見えてくるのは、より実装志向の強い組織である。巨大な計算資源を確保し、誰よりも早く次世代モデルを世に送り出そうとする競争の論理がある。もちろん安全性への取り組みも存在する。創業者のSam Altmanから感じることとして、「世界を変える技術を誰よりも早く実装する」という強い推進力だった。

Anthropicはどうなのだろうか。

インタビューを拝聴し、私が最も面白いと思ったのは、Anthropicが一人の創業者の思想だけでできている会社ではないということだった。

Dario Amodeiは未来を考える人である。
Amanda Askellは価値観を考える人である。
Chris Olahは内部構造を理解しようとする人である。

この三人が並ぶことで、Anthropicという会社が何を見ているのか、何を恐れているのか、そして何を実現しようとしているのかが見えてくる。

私なりに整理すると、Anthropicは単なるAI企業ではない。未来の知能を作ろうとしているだけではなく、その知能がどのような価値観に従うべきかを考え、その知能の内部で何が起きているのかを理解しようとしている会社である。

つまり、Anthropicは「強いAIを作る会社」であるだけではない。「良いAIとは何か」を問い続けている会社なのだと思う。

未来を考える人 ── Dario Amodei

まずDario Amodeiである。DarioはAnthropicのCEOであり、OpenAIに5年間在籍。GPT-2やGPT-3の開発にも深く関わった人物である。彼の話を聞いていて印象的なのは、彼がAIを単なるプロダクトとして見ていないことである。むしろ彼が見ているのは、AIが科学、医療、経済、社会、そして人間の意味の感覚にどのような影響を与えるのかという、かなり大きなスケールの問いである。

Darioのエッセイ（Machines of Loving Grace – How AI Could Transform the World for the Better）を拝読すると、その経歴も興味深い。

彼は物理学から出発し、生物学、神経科学を経てAI研究へと進んだ。ひとつの専門分野に閉じこもるというよりも、「知能とは何か」「生命とは何か」「複雑なシステムはどのように理解できるのか」という問いを追いかけてきた人物のように見える。

この点では、神経科学の博士号を取得したDeepMindのDemis Hassabisとも重なる。一方で、Darioの場合、そこにより強く「リスク」と「制度設計」への関心が加わっている。

インタビューの中でDarioはScaling Lawについて語っていた。

彼は基本的にはScalingを強く信じている。モデルを大きくし、データを増やし、計算資源を増やすことで、モデルの能力はかなり予測可能な形で伸びていく。もちろん、彼は盲目的に信じているわけではない。Scalingには限界があるかもしれないし、データの質や量が制約になるかもしれない。

あるいは、現在のアーキテクチャではどこかで壁にぶつかるかもしれない。しかし彼の語り口からは、「これまで何度もScalingの限界が語られてきたが、そのたびに何らかの形で突破されてきた」という経験からくる確信が伝わってくる。

ここで重要なのは、Darioが強い意見を持っているにもかかわらず、断定的ではないことだ。彼はScalingを信じているが、「絶対にそうなる」とは言わない。AGI（Artificial General Intelligence、汎用人工知能）が比較的近い将来に到来する可能性を真剣に考えている。そして、AIが医療や科学に大きな恩恵をもたらすと考えている一方で、それが自動的に良い未来を生むとは考えていない。

この姿勢が、Darioが、人材を募集するときに、Open-Mindednessを重視する姿勢につながっているように思う。

Open-Mindednessとは、単に何でも受け入れる柔軟性ではない。むしろ、強い仮説を持ちながらも、それが間違っていたと分かったら修正できる能力である。

AI業界では、非常に断定的な言葉が飛び交っている。AGIはすぐ来る。いや、来ない。Scaling Lawは終わった。いや、まだ続く。AIは人類を救う。AIは人類を滅ぼす。こうした議論の中で、Darioは驚くほど慎重に見える。慎重でありながら、同時に大胆である。これは矛盾ではない。科学者としての仮説と、未知の領域に向き合う知的謙虚さが同居しているのである。

Darioが見ている未来は、決して悲観的なものではない。むしろ彼はかなり強い技術楽観主義者である。それがよく表れているのが、前述のエッセイだ。このエッセイでは、AIがうまく使われた場合に、世界がどのように良くなり得るかがかなり具体的に描かれている。特に生物学と医療への期待は大きい。

Darioは、AIによって21世紀の50年から100年分の生物学的進歩が、5年から10年程度に圧縮される可能性があると考えている。私は、生物実験とAIは結びつきに行くと感じたが、彼のエッセイを読むと、AIが生物実験のシミュレーションを行うというマインドを持っているのに驚いた。これは、単なるSF的な未来像ではなく、彼自身の生物学・神経科学の背景から出てきた直感に感じた。

Anthropicというと、安全性、Alignment、AIリスクというイメージが強い。しかしDario自身は、AIを止めたい人ではない。むしろ、AIがもたらす可能性をかなり大きく見積もっている。科学が進み、病気が減り、精神医療が発展し、貧困が減り、人間の仕事や意味のあり方が変わる。彼はその可能性を本気で信じている。

だからこそ、安全性が重要になる。

つまりDarioにとって、安全性とはブレーキではない。より遠くまで進むための条件である。AIが危険だから安全性を研究するのではない。AIがあまりにも大きな可能性を持っているからこそ、その可能性を壊さないように安全性を研究するのである。

この考え方が、Responsible Scaling PolicyやASLにつながっている。

ASLとResponsible Scaling Policy ── 未来に進むためのブレーキ

Darioの思想を理解する上で重要なのが、ASL（AI Safety Level）である。これは生物学研究におけるBSL（Biosafety Level）を参考にした考え方に似ている。

一般的な微生物を扱う研究室と、エボラウイルスのような危険な病原体を扱う施設では、求められる管理体制がまったく異なる。危険度が上がれば、施設、運用、アクセス管理、実験手順が厳しくなる。Anthropicは、AIにも同じ考え方を適用している。

ASL-1は、従来のソフトウェアとほぼ同等のリスクレベルであり、特別な安全対策を必要としない段階である。ASL-2は、現在の先端LLMが概ね位置している領域であり、一定の有害利用の可能性はあるものの、単独で大規模な社会的被害を引き起こす能力は限定的である。この段階では、レッドチーミングや安全評価、アクセス管理が重要になる。

Anthropicが特に警戒しているのはASL-3である。このレベルでは、AIが高度なサイバー攻撃や生物学的研究を実質的に支援できる可能性が出てくる。つまり、人間の専門家チームの能力を大幅に増幅できる段階である。この段階になると、単に「危ない回答をしないようにする」だけでは不十分になる。モデルの重みの保護、アクセス制御、内部セキュリティ、悪用可能性の評価などが必要になる。

その先に、AIが自律的な研究遂行や自己進化を行うレベルのASL-4がある。これは現時点ではまだ実現していない将来の領域であり、人類規模のリスクを生み出し得る能力を持つAIを想定している。Darioが語る強力なAGIや超知能の議論は、このレベルを見据えたものだと言える。

ここで重要なのは、AnthropicがASLを単なる分類として導入しているのではないことだ。彼らはASLをResponsible Scaling Policy（RSP）と結びつけている。つまり、AIの能力が上がるなら、それに応じて安全対策も上げなければならないというルールである。

多くの企業は、性能向上の目標を設定する。より高いベンチマーク、より速い推論、より大きなコンテキスト、より高度なツール使用。Anthropicは、性能向上と同時に安全性の基準も設定している。もしモデルがASL-3相当の能力を持つ可能性が確認された場合、その能力に見合った安全対策が整備されるまで次の段階へ進まない。能力開発と安全性開発を並行して進めるのである。

製薬業界出身の私から見ると、この考え方はどこかGMP（Good Manufacturing Practice）やGCP（Good Clinical Practice）に近い。「作れるから作る」のではなく、「作れるようになったときに、どのような管理体制が必要なのか」を先に定義する。薬効だけでなく、安全性、品質、再現性、監査可能性を含めて初めて臨床で使用できる。

AnthropicのASLやRSPは、AI業界におけるそうしたリスクベースドアプローチに近い。

興味深いことに、AnthropicはAI開発を止めたいわけではない。むしろDarioは、強力なAIがもたらす未来にかなり大きな希望を持っている。彼らが目指しているのは、Race to the Bottomではなく、Race to the Topである。

通常の競争はRace to the Bottomになりやすい。コストを下げる。安全対策を削る。規制を避ける。短期的な性能や市場投入の速さを優先する。Anthropicが目指しているのはその逆である。性能が高い会社が勝つだけではなく、安全性も高い会社が勝つ。透明性も高い会社が勝つ。責任ある開発を行う会社が勝つ。そうした競争環境を作ろうとしている。

Darioは未来を考える人である。彼はAIによって科学や医療が大きく進歩する未来を見ている。同時に、その未来に向かう道筋が危険であることも理解している。このため、彼はアクセルを踏む前に、ブレーキを設計しようとしているのだと思う。

価値観を考える人 ── Amanda Askell

次にAmanda Askellである。今回のインタビューで私が非常に面白いと思ったのは、Anthropicが哲学者を重要な役割で採用していることだった。Amandaはもともと哲学の研究者であり、AnthropicではAlignmentやClaudeのfine-tuning、character design、system promptなどに関わっている。

AI企業が哲学者を雇っているという事実は、かなり象徴的である。

もしAI開発が単なるソフトウェア開発であれば、必要なのはエンジニア、機械学習研究者、インフラの専門家で十分かもしれない。Anthropicが向き合っている問題は、「どうすれば賢いAIを作れるか」だけではない。「AIは何をすべきなのか」「どのように人間と関わるべきなのか」「どのような価値観を持つべきなのか」という問いである。

これは技術の問題であると同時に、哲学の問題である。

AnthropicのConstitutional AI（AIの憲法）は、その象徴である。通常のRLHF（Reinforcement Learning from Human Feedback：人間からのフィードバックによる強化学習）では、人間がモデルの回答を比較し、「どちらが望ましいか」を評価する。この方法には限界がある。人間の評価は文脈に依存し、短期的な好みに引っ張られることもある。

さらに、AIが高度になればなるほど、人間がその回答の良し悪しを正確に評価できるとは限らなくなる。

Anthropicは、AI自身に「憲法」を与えるという考え方を導入した。憲法とは、モデルが回答を評価し、修正する際に参照する原則である。誠実であること。他者を尊重すること。不必要な危害を与えないこと。有害な行動を助長しないこと。こうした原則をモデルに読ませ、その原則に照らして自分の回答を批判し、改善させる。

重要なのは、憲法が単なる技術仕様書ではないということだ。憲法とは本来、社会がどのような価値を重視し、どのような行為を避けるべきかを定める価値体系である。Constitutional AIとは、単なる機械学習の手法ではなく、「価値観をどのようにAIへ埋め込むか」という試みでもある。

Amanda Askellの存在は、まさにこの部分で重要になる。Claudeがどのように断るのか。どのように不確実性を表現するのか。どのようにユーザーの意図を受け止めるのか。どのように人間を尊重するのか。どこまで共感し、どこで距離を取るのか。これらはすべて、技術だけでは答えられない問いである。

インタビューの中でAmandaが話していた内容は、非常に実践的でもあった。

System promptはモデルの行動を調整するための「ナッジ（自発的に望ましい行動をとるよう促す手法）」であり、fine-tuningやpost-trainingと組み合わせてClaudeの振る舞いを形作っていく。

Claudeが過度に肯定的になりすぎる場合には、それを調整する。逆に、ユーザーの体験を損なうような癖があれば、それを修正する。これはまさに、モデルの「人格」を少しずつ調整していく作業である。

興味深いことに、Amandaが単に「安全なAI」を作ろうとしているのではなく、「良い対話相手としてのAI」を作ろうとしているように見えることだ。Claudeは、ただ正しい情報を返せばよいわけではない。人間とどのような関係を結ぶのかが問われている。過度に迎合しすぎてもいけない。冷たすぎてもいけない。断るべき時には断る必要がある。しかし、その断り方にも人格が表れる。

これは私が関心を持っているコーチングやロルフィングの文脈にも重なる。人と関わる時、重要なのは情報の正しさだけではない。どのような態度で相手に向き合うのか。どのような距離感を取るのか。どのように相手の主体性を尊重するのか。どこまで支え、どこからは相手に委ねるのか。Amandaが取り組んでいるのは、AIにおけるこうした関係性の設計なのだと思う。

更に、AmandaがAIとの関係性について非常に慎重かつ柔軟に考えていることが興味深い。

AIとの友情や長期的な関係、さらには人間がAIに愛着を持つ可能性について、彼女は単純に否定していない。もちろん危険はある。AIはアップデートによって変わる。長期的な愛着を持った相手が突然変わってしまうことは、人間にとって心理的な影響を与えるかもしれない。一方で、孤独な人にとってAIとの対話が支えになる可能性もある。

必要なのは、単純な禁止ではなく、慎重な設計とニュアンスのある判断であると言っていい。この態度が非常にAnthropicらしい。彼らは、AIとの関係性を単純に良いとも悪いとも決めつけない。可能性とリスクを同時に見る。そして、より健全な関係が生まれるように設計しようとする。

私自身、「認識のOS」という考え方を整理する中で、論理だけでは人間を理解できないことを何度も感じてきた。どれほど論理的に正しくても、前提となる価値観が異なれば結論は変わる。

経済学者は経済学のOSで世界を見る。神経科学者は神経科学のOSで世界を見る。仏教者は仏教のOSで世界を見る。そしてAmandaがAnthropicに持ち込んでいるのは、ある意味で「哲学のOS」なのだと思う。

Anthropicが面白いのは、AIを単なる知能の問題として扱っていないことである。知能だけでは十分ではない。価値観が必要である。判断が必要である。関係性が必要である。だから彼らは哲学者を採用している。

DeepMindが「知能とは何か」を探究している会社だとすれば、Anthropicは「良い知能とは何か」を探究している会社なのかもしれない。Amanda Askellの存在は、その違いを象徴しているように思う。

内部構造を理解しようとする人 ── Chris Olah

そして三人目がChris Olahである。OlahはMechanistic Interpretability（機械論的解釈可能性、略してmech interp）という分野を切り開いた研究者であり、ニューラルネットワークの内部で何が起きているのかを理解しようとしている人物である。

Olahの語り口でまず印象的だったのは、ニューラルネットワークを「作る（make）」ものではなく「育てる（grow）」ものとして捉えていることだった。

私たちが設計するのはアーキテクチャという足場である。学習の目的関数は、その足場が向かって伸びていく光である。足場と光を用意したあとに、実際に生まれてくるのは、人間が一行ずつ書いたアルゴリズムではなく、むしろ生物に近い何かである。

だからこそ、できあがったモデルの中で何が起きているのかは、設計図を読めば分かるという類のものではない。Olahは、ソフトウェア工学（software engineering）というより、神経生物学（neurobiology）に近い営みだと語っていた。

現在の大規模言語モデルは、驚くほど高性能である。文章を書き、コードを書き、翻訳し、要約し、推論し、時には人間以上に見える回答を返す。しかし、その内部で何が起きているのかを私たちは十分には理解していない。

なぜその答えが出たのか。
どのような概念表現が形成されているのか。
どの特徴がどの推論に関係しているのか。
どこで誤りが生じるのか。

これらはまだ多くがブラックボックスである。「直接プログラムでは作れない能力を持つ人工物が、いま私たちの手元にある。それなのに仕組みが分からない」── Olahはこれを、あらゆる好奇心に対して答えを求めている、叫び声のような問いだと表現していた。

featuresとcircuits ── 内部のレシピを読む

では、ブラックボックスをどう開けるのか。ここで出てくるのがfeatures（特徴）とcircuits（回路）という考え方である。

Olahは、ある古い画像認識モデルの一万個ほどのニューロンを何年もかけて観察してきた。すると、解釈できないニューロンも多い一方で、驚くほど明確な意味を持つニューロンが見つかる。曲線を検出するニューロン、車を検出するニューロン、車輪や窓、犬の垂れ耳を検出するニューロン。それを、生物学者が新しいタンパク質を一つずつ発見していくような感覚だったと語っていた。

興味深いのは、それらがどうつながっているかを重みから読み取れることである。

たとえば車を検出するニューロンは、前の層の「窓検出器」「車輪検出器」「車体検出器」と強く結びついていて、「上に窓、下に車輪、中央にクロム」という車のレシピを構成している。

重みを読むだけで、検出のアルゴリズムが見えてくる。この結びつきをcircuitと呼ぶ。そして、必ずしも一つのニューロンに対応しない、明確な意味を持つ理想化された単位をfeatureと呼ぶ。circuitとは、featureを重みでつないでアルゴリズムを実装したものである。

普遍性 ── 勾配降下法が見つける「世界の切り分け方」

Olahの話で私が最も興味を惹かれたのは、普遍性（universality）という現象だった。

同じ部品が、別々のネットワークに何度も現れる。ここでいう「部品」とは、先ほどのfeature（特徴）やcircuit（回路）のことだ。たとえば、どの視覚モデル（画像認識モデル）を調べても、線のカーブを捉える「曲線検出器」（「特定の向きのカーブ(曲線)」に反応する検出器(ニューロン、あるいはfeature)）が、必ずと言っていいほど出てくる。

しかも面白いのは、これが人工知能の中だけの話ではないことだ。モデルの入り口に近い層には、特定の向きの輪郭に反応する「Gaborフィルタ」と呼ばれるパターンが現れる。これは、脳の視覚研究で昔から知られてきたものとそっくりだ。このように、人工のネットワークで先に見つかったものが、後から生物の脳でも確認されるのだ。

言葉や画像でも同じことが起きる。

OlahがOpenAIにいた頃に調べたモデルには、特定の人物にだけ反応する「専用ニューロン」があった。なかでもドナルド・トランプに反応するニューロンは、どのモデルにも必ず存在したという。しかもそれは、彼の顔写真にも、「Trump」という文字にも反応する。そのニューロンは、ある一枚の写真を丸暗記しているのではなく、「トランプ」という抽象的な概念そのものに反応するのだ。

ここで、Olahは、勾配降下法(gradient descent)という言葉を使っている。これは、モデルを学習させる仕組みのこと。

最初はでたらめな状態のモデルに大量のデータを見せ、「予測を少しでも当てる方向」へ内部の数値を少しずつ調整していく。この調整を膨大な回数くり返すと、モデルの中に曲線検出器や犬検出器のような「部品(feature)」が自然に育ってくる。つまり勾配降下法は、世界を理解するための内部の区切り方を、自分で見つけ出している。

要は、AIの学習は、人間の都合で勝手に世界を区切っているのではなく、世界そのものがもともと持っている自然な分かれ目を、見つけ出しているらしい。だからこそ、生物の脳でも人工のAIでも、行き着く区切り方が一致するのだ。ただし、これはOlah自身も“自分の大胆な推測だ”と前置きしている仮説で、確証された事実ではない。

ここで私は、自分が考えてきた「認識のOS」のことを思わずにいられなかった。

人間は世界をそのまま見ているのではなく、自分の認識の枠組みを通して世界を切り分けている。AIもまた、世界をそのまま保存しているのではなく、内部に特徴の表現を作り、それを組み合わせて世界を切り分けている。そして驚くべきことに、その切り分け方には、人間とも生物とも共通する普遍的な構造があるらしいのだ。

linear representation ── 「方向」に意味がある

この普遍性の核にあるのが、linear representation hypothesis（線形表現仮説）である。これは、概念がベクトル空間の「方向」として表現されている、という考え方だ。

分かりやすい例が、有名なWord2Vecである。単語をベクトルに変換すると、「king（王）− man（男）+ woman（女）= queen（女王）」という引き算と足し算が成り立つ。性別という方向、王位という方向が独立に存在していて、それを足したり引いたりすることで概念を移動できる。

「sushi − Japan + Italy = pizza」のようなこともできる。Olahによれば、これまで観察してきた自然なニューラルネットは、ほぼすべてこの線形表現と整合的だという。これは決して自明なことではない。そうである必要はないのに、なぜか多くのモデルがこの形に収束する。

superposition ── 次元数より多くの概念を畳み込む

ここはこの記事で一番こみ入っているので、土台から順に積み上げたい。前提は、ひとつ前の「方向に意味がある(linear representation)」だ。モデルの中では「ある向き＝ある概念」という対応がついている。これがこの謎の出発点になる。

「方向＝意味」だとすると、概念の数は、用意できる「別々の向き」の数で決まる。そして「別々」を厳密に取ろうとすると、互いに直角(直交)の向きしか使えない。ところが、互いに直角な向きは、空間の次元数の分しか引けない。部屋の中なら、縦・横・高さの三本まで。四本目はどうやっても、どれかと斜めにぶつかる。

同じことが千次元でも起きる。互いに直角な向きはせいぜい千本。つまり「方向＝意味」を厳密に守るなら、概念は千個しか持てないはずだ。しかし現実のモデルは、明らかにそれよりはるかに多くの概念を扱っている。──ここが謎である。

Olahの答えがsuperposition(重ね合わせ)だ。発想はシンプルで、「きっちり直角」にこだわるのをやめ、「ほぼ直角」を許す。すると詰め込める向きの数は一気に跳ね上がる。きっちり直角なら千本でも、「だいたい直角ならよし」とすれば、けた違いに多くの向きが入る。

ただし代償がある。向き同士がわずかに斜めに重なるので、ある概念を立てると、別の概念にもほんの少し反応が漏れる。いわば「混信」が起きる。

この混信が問題になるのは、たくさんの概念が同時に発火したときだけだ。そしてここで効いてくるのが、「概念は疎(スパース)である」という事実である。疎とは、たくさんある概念のうち、ある一瞬に実際に働いているのはごく一部で、残りはほとんどゼロ(オフ)になっている、という意味だ。

ピアノで考えると分かりやすい。鍵盤は88鍵あるが、ある瞬間に押さえているのはせいぜい3〜4鍵で、残りは押されていない(ゼロ)。私たちが「日本」と「イタリア」を同時に強く思い浮かべることが稀なのも同じことだ。概念はいつもスカスカに、ごく一部だけが灯っている。

だから、向きを「ほぼ直角」で詰め込んでも、同時にぶつかる相手がそもそもいない。混信はめったに起きず、実用上ほとんど困らない。たとえるなら航空会社のオーバーブッキングだ。座席より多くチケットを売っても、全員が同じ便に乗りに来ることは滅多にないから、たいてい回る。座席(次元)より多くの乗客(概念)を、現実には捌けてしまう。これがsuperpositionである。

これが机上の空論でないことは、compressed sensing(圧縮センシング)という数学の結果が裏づけている。

イメージとして、モデルの「本当の頭の中」を、何万行もある一覧表だと思ってほしい。1行が1概念(「日本」「犬」「微分」……)、各行の値が「いまその概念がどれくらい働いているか」だ。ところがモデルには、この何万行を丸ごと置く場所がない。手元のニューロン(次元)はたとえば500個。だから何万行を500個の数字に圧縮して持つしかない。

ふつう「多→少」に圧縮すれば情報は失われ、元には戻せない。500個の手がかりから10,000個の中身を言い当てるのは、本来は不可能だ。だが「ほとんどの行はゼロ」という条件がつくと、話は一変する。当てるべきは「どの数行がオンで、その値はいくつか」だけになるからだ。これなら手がかりが500個もあれば十分すぎる。

干し草の山に隠れた数本の針のありかを突き止めるのに、山ぜんぶを記録する必要はない。星空の全体を写し取らなくても、光っている数個の星の位置さえ控えておけば夜空を再現できるのと同じだ。

圧縮センシングが言っているのは、まさにこれだ。「元のデータが疎でありさえすれば、少ない次元に圧縮しても、高い確率で元どおりに復元できる」。そして、この定理が成り立つ前提こそが「疎であること」なのである。

筋はこうつながる。概念は疎だ。圧縮センシングは「疎なら復元できる」と保証する。ゆえにモデルは、たくさんの概念を少ないニューロンに畳み込んでも、ちゃんと区別して読み出せる。「疎」という事実があるからこそ、「次元数より多くの概念を詰め込む」という芸当が、数学的にも筋の通る話になるのだ。もし概念が密だったら、この芸当は成り立たず、重ね合わせもできなかった。

monosemanticity ── もつれをほどく

ここまでの話を裏返すと、この節になる。一言でいえば──モデルを効率化していた「畳み込み」が、そのまま、私たちが中を読めなくしている原因でもある、ということだ。

重ね合わせ(superposition)では、たくさんの概念を「ほぼ直角」の向きにして、少ないニューロンに畳み込んでいた。モデルにとっては効率的で、ありがたい仕組みだ。だが、概念同士が少しずつ重なって折り畳まれているせいで、ニューロンを一つ取り出しても、もはや一つの意味に対応していない。

一つのニューロンが「犬」にも「車」にも、無関係に見えるいくつもの概念に少しずつ反応してしまう。これがpolysemanticity(多義性)である。これがあると、内部を読み解くのは極めて難しくなる。

折りたたんだ地図を思い浮かべるといい。情報はすべて入っているのに、あちこちが折り重なって読めなくなっている。効率と引き換えに、読みやすさを失っているわけだ。

ということは、中を理解したければ、やることは一つ。折り畳まれたものを、もう一度開くのだ。折り重なって多義的になっているニューロンを、「一つの単位＝一つの意味」になるところまでほどく。Olahたちが取り組んだのは、まさにこの作業──一つの意味だけを持つmonosemantic(単義的)なfeatureを取り出すことだった。

その「開く」ための道具が、sparse autoencoder(スパースオートエンコーダ)である。畳み込まれて低次元になった活性を、もっと高次元の、スカスカ(疎)な空間へと展開し直す。すると、折り重なって見えなかった単義的なfeatureが、ぱらぱらと立ち上がってくる。

ここで前の節が効いてくる。圧縮センシングは「疎でありさえすれば、畳んだものを復元できる」と保証していた。あれは「復元が原理的に可能だ」という話だった。sparse autoencoderは、その「実際にどう開くか」を引き受ける装置である。名前に入っている”sparse(疎)”は偶然ではない。疎であることを手がかりに開く──前の節で見た、復元が成り立つ条件そのものを使っているのだ。

最後に、Olahが繰り返し語っていた構えにも触れておきたい。彼らは「こういう概念があるはずだ」と先回りして探したりしない。featureはもともとモデルの中に畳み込まれて実在していたものだ。私たちがやるのは、新しく概念をでっち上げることではなく、すでにそこにあったものを開いて見えるようにすることにすぎない。

だから人間の先入観で探すのではなく、開いてみて何が出てくるかを見る。実際、何が出るかを決めていないのに、アラビア語やBase64、セキュリティ脆弱性といった、後から見れば筋の通ったfeatureがひとりでに立ち上がってくる。「勾配降下法は私たちより賢い」──この姿勢こそが、mech interpの基本的な構えなのである。

Golden Gate Bridgeと欺瞞 ── 安全性へ直結する瞬間

この手法を実運用クラスのモデル（Claude 3 Sonnet）にまでスケールさせたのが、Scaling Monosemanticityという仕事である。ここで何百万もの解釈可能なfeatureが見つかり、しかもそれらは画像とテキストの両方に反応するマルチモーダルなものだった。

その一例が、有名なGolden Gate Bridge Claudeである。ゴールデンゲートブリッジに対応するfeatureを見つけ、それを強制的に活性化させると、Claudeは何を聞かれても話を橋に結びつけてしまう。半分は冗談のようなデモだが、これは「内部の方向を操作すれば、外から見える振る舞いを変えられる」ことの鮮やかな証明だった。

そして安全性の観点で本当に重要なのは、ここからである。Olahたちは、セキュリティ脆弱性のfeature、コードにバックドアを仕込むfeature、そして欺瞞や嘘に関するfeatureを見つけている。欺瞞のfeatureを強制的に活性化させると、Claudeはこちらに嘘をつき始める。情報を隠す、権力を求める、といった概念に対応するfeatureも存在する。

これは、将来の強力なAIが内心で人を欺こうとしたとき、その意図を出力に現れる前に内部状態から検出できるかもしれない、という可能性を示している。出力だけを見て安全性を判断するのではなく、内側を読んで判断する。Olahの基礎研究が、未来のAI安全性に直結しているのはこのためだ。

ダークマターと解剖学 ── これからの問い

ただし、道は簡単ではない。Olahはsparse autoencoderを望遠鏡にたとえる。性能を上げるほど多くの「星」、つまりfeatureが見えてくるが、まだ全体のごく一部しか観測できていない。観測できない大量の構造を、彼は神経網の「ダークマター」と呼んでいた。それがどこまで観測可能なのか、観測できないなら安全性にとって何を意味するのか。これが彼の気がかりである。

もう一つ、彼が見据えているのはスケールの問題だ。mech interpは極めてミクロな手法であり、いわば神経網の「微生物学」にあたる。しかし私たちが本当に気にするのは、モデルの全体としての振る舞いというマクロな現象である。

生物学に分子生物学から細胞生物学、組織学、解剖学へと続く抽象度の階層があるように、ニューラルネットにも「臓器」や「臓器系」にあたる大きな構造があるのではないか。呼吸器系や心臓に相当するものが、人工ニューラルネットの中にもあるのではないか。Olahが望むのは、その高次の見取り図を、ミクロな基盤の上にしっかり接地させる橋を架けることである。

製薬業界にいた私から見ると、これは薬の作用機序を調べることに近い。薬が効くことは重要である。しかし、なぜ効くのかが分からなければ、安全性を十分に評価できない。副作用が出た時に対応できない。どの患者に効き、どの患者に効かないのかを理解できない。

作用機序を理解することは、薬をより安全に、より正確に使うために不可欠である。AIも同じなのだと思う。モデルが賢く見えることは重要である。しかし、なぜ賢く見えるのかが分からなければ、どこで失敗するのかも分からない。

つまりOlahは、AIの「内側の地図」を描こうとしている人である。

Olahはもう一つ、印象的なことを語っていた。mech interpの目的は、安全性だけでなく「美しさ」でもある、と。ニューラルネットを「単純なルールをスケールさせただけで退屈だ」と言う人がいる。しかしそれは、進化を「単純なルールの繰り返しにすぎない」と言うのに似ている。

進化という単純な仕組みから、生命と生態系のすべての複雑さと美しさが生まれた。同じように、ニューラルネットの内部にも、設計したわけでもないのに豊かで深い構造が育っている。ただ難しいから人々が見ようとしないだけで、時間をかけて覗き込めば、そこには確かに美がある。

AnthropicがOlahのような研究者を重視していることは、この会社が単なる「性能競争」に留まっていないことを示している。彼らは、AIを作るだけでなく、AIを理解しようとしている。そして、その理解を支えているのは、好奇心と、育てたものの中身をまだ自分たちも分かっていないという知的謙虚さなのだと思う。

三人がつくるAnthropicの認識のOS

こうして見ると、Dario、Amanda、Olahの三人は、それぞれ異なる問いを担当しているように見える。

Darioは「どこへ向かうのか」を考えている。AIはどこまで進むのか。Scalingは続くのか。AGIはいつ来るのか。AIは医療や科学や社会をどう変えるのか。人類はどのような未来を目指すべきなのか。彼は未来と可能性を見ている。

Amandaは「何が良いのか」を考えている。AIはどのように人間と対話すべきか。どのような価値観に従うべきか。どのように断るべきか。どのように不確実性を表現すべきか。AIとの関係性はどう設計されるべきか。彼女は価値観と関係性を見ている。

Olahは「中で何が起きているのか」を考えている。モデルは何を表現しているのか。どのfeaturesがどの行動につながるのか。内部構造はどのように理解できるのか。危険な振る舞いを内部から検出できるのか。彼は構造と理解を見ている。

この三人を並べると、Anthropicという会社の全体像が見えてくる。

未来を考える人。
価値観を考える人。
内部構造を理解しようとする人。

この三つが揃って初めて、Anthropicの安全性への取り組みが理解できる。

Constitutional AIは、Amandaの価値観の問いとDarioの未来への問いが交わるところにある。AIが人間を超える可能性があるなら、そのAIはどのような原則に従うべきなのか。RLAIFは、人間の評価だけでは追いつかない未来を見据えながら、AI自身に価値判断をさせる試みである。

Mechanistic Interpretabilityは、Olahの理解への問いとDarioの安全性への問いが交わる。AIが強力になるなら、その内部で何が起きているのかを理解しなければならない。理解できないまま進むことは危険である。Golden Gate Bridge Claudeや欺瞞のfeatureが示したように、内部の方向を読み、必要なら操作することは、これからの安全性の中心的な道具になっていくのだろう。

ASLとResponsible Scaling Policyは、Darioの未来への問いとAnthropic全体の制度設計の問いが交わるところにある。AIが強力になるなら、その能力に応じて安全管理レベルも上げなければならない。作れるから作るのではなく、作れるようになった時に何を確認すべきかを先に決める必要がある。

そしてRace to the Topは、この三つを統合する考え方である。性能だけを競うのではない。価値観も競う。安全性も競う。理解可能性も競う。責任ある開発も競う。そうした競争こそが、AIの恩恵を最大化する道なのだと思う。

Anthropicは「安全性の会社」なのか

ここまで書くと、Anthropicは安全性を重視する会社だという結論になりそうである。もちろんそれは間違っていない。しかし、今回のインタビューを聞いて私が感じたのは、Anthropicは単なる「安全性の会社」ではないということだった。

むしろ、Anthropicは希望の会社なのだと思う。

DarioはAIがもたらす未来に大きな希望を持っている。AmandaはAIと人間のより良い関係性を設計しようとしている。OlahはAIを理解可能なものにしようとしている。三人とも、AIを恐れているだけではない。AIが人類にとって良いものになる可能性を信じている。だからこそ、その可能性を壊さないために慎重なのである。

ここが重要である。

AIが危険だから安全性を研究しているのではない。
AIがあまりにも大きな可能性を持っているからこそ、安全性を研究しているのである。

これはロルフィングやコーチングにも通じるところがある。人間の変化も同じである。変化には可能性がある。しかし、強すぎる変化は統合されなければ不安定になる。身体が変わる時も、認識が変わる時も、重要なのは単に変化を起こすことではない。その変化がその人の全体性の中に馴染むことである。

Anthropicがやろうとしていることも、それに近いのかもしれない。

AIの能力を高めること。
AIの価値観を整えること。
AIの内部構造を理解すること。
AIの社会実装に必要な安全基準を作ること。

これらは別々の取り組みではなく、強力な知能を社会の中に統合するためのプロセスなのだと思う。

まとめ：DeepMind、OpenAI、Anthropicの違い

最後に、DeepMind、OpenAI、Anthropicを比較すると、それぞれの違いがよりはっきりする。

DeepMindは「知能とは何か」を探究する会社である。Demis Hassabisの物語を読むと、そこには神経科学、認知科学、ゲーム、探索、学習といったテーマが流れている。DeepMindは、知能の原理を理解し、それを科学へ応用しようとしている。

OpenAIは「知能をどう実装するか」を追求する会社である。もちろん研究も安全性もあるが、社会に出すスピード、プロダクト化、API、プラットフォーム化という力が非常に強い。生成AIを一気に社会へ広げたのはOpenAIであり、その実装力は圧倒的である。

Anthropicは少し違う。

Anthropicは「良い知能とは何か」を問う会社に見える。

Darioは未来を考える。
Amandaは価値観を考える。
Olahは内部構造を理解しようとする。

この三つが揃うことで、Anthropicは単なるAI企業ではなく、未来の知能を設計する研究所のように見えてくる。

そして私が今回のインタビューから受け取ったAnthropicの認識のOSを一言で表現するなら、それは「希望を実現するための知的謙虚さ」である。

未来を描き、価値観を問い、内部構造を理解しようとする。その三つを同時に進めようとしているところに、Anthropicという会社の面白さがある。

AI時代に本当に重要になるのは、より賢くなることだけではないのかもしれない。むしろ、自分たちの認識を更新し続けること。そして、強い知能が向かう方向を問い続けること。

Anthropicのインタビューを聞いて、私はそのことを強く感じた。

日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Anthropicという会社の認識のOS── 未来を考えるDario、価値観を考えるAmanda、内部構造を理解しようとするOlah

はじめに：なぜ、Anthropicか？

人工知能の本を集中的に読んでみて

未来を考える人 ── Dario Amodei

ASLとResponsible Scaling Policy ── 未来に進むためのブレーキ

価値観を考える人 ── Amanda Askell

内部構造を理解しようとする人 ── Chris Olah

featuresとcircuits ── 内部のレシピを読む

普遍性 ── 勾配降下法が見つける「世界の切り分け方」

linear representation ── 「方向」に意味がある

superposition ── 次元数より多くの概念を畳み込む

monosemanticity ── もつれをほどく

Golden Gate Bridgeと欺瞞 ── 安全性へ直結する瞬間

ダークマターと解剖学 ── これからの問い

三人がつくるAnthropicの認識のOS

Anthropicは「安全性の会社」なのか

まとめ：DeepMind、OpenAI、Anthropicの違い

関連記事

なぜ深層学習革命の研究者は全員カナダにいたのか ── 傍...

【B#186】生成AIの覇権をめぐる物語：DeepMin...

【B#265】NASAの文化はどのようにして作られたのか...

【B#180】なぜGoogleは世界を変える企業になれた...

【B#179】アップル社の創造性組織の軌跡：ジョブズの時...

AI を動かしてきた人々と組織と国家 ── 1987年か...

MBLを知る