大規模言語モデル(LLM)の安全性は、長らく「入出力のふるまい」から推し量るしかなかった。脱獄(jailbreak)や有害出力の評価、レッドチーミング、運用時のモニタリングは重要である一方、モデル内部がブラックボックスである限り、原因究明と再発防止は難しい。

その状況を変えつつあるのが機械的解釈可能性(mechanistic interpretability)である。MIT Technology Reviewは、2026年版「10 Breakthrough Technologies」でこの潮流を取り上げ、内部の計算過程に迫るアプローチが前進していると述べている(2026年1月12日に同年リストの公開を発表)。

本稿では、行動監視から内部構造監査への進化として、Anthropicの回路トレーシング(attribution graphs)、Google DeepMindのGemma Scope 2、そしてMicrosoft研究者らの「Trigger in the Haystack」によるバックドア検出を軸に、LLM安全性の新しい守り方を整理する。

機械的解釈可能性が狙うもの: 「原因」をモデル内部に求める

機械的解釈可能性は、ニューラルネットワークを「デバッグ可能なプログラム」に近づける試みである。入力と出力の対応(ふるまい)だけでなく、内部の特徴(features)や回路(circuits)が、どのように情報を保持し、変換し、最終出力へ寄与するかを追跡する。

従来の安全対策は、次の性格を持っていた。

  • 評価(evals): 特定の危険タスクに対する成功率や拒否率を測る。
  • レッドチーミング: 予期せぬ抜け道を探索し、パッチや方針で抑制する。
  • 運用モニタリング: ログ、ガードレール、レート制限等で被害を抑える。

一方で、バックドア(sleeper agent)的な「条件付きで起動する挙動」や、学習データ由来の偏りが、どの内部表現に埋め込まれているのかは、上記だけでは見えにくい。機械的解釈可能性は、この「埋め込み先」を特定し、再発防止策(再学習・重み修正・回路の無効化)に結びつけることを狙う。

内部監査を可能にした鍵: 疎な特徴(SAE)と回路レベルの追跡

近年の代表的な前進は、疎な特徴を抽出する疎オートエンコーダ(Sparse Autoencoders: SAEs)や、それを拡張したトランスコーダの利用である。密な活性(activations)を、より解釈しやすい疎な特徴へ展開し、「何が発火したか」「どの特徴が出力に効いたか」を追えるようにする。

ただし注意点もある。解釈可能性は多くの場合、

  • 特徴に付けたラベルが妥当か(人間の解釈バイアス)
  • モデルサイズや分布の変化にどこまで頑健か
  • 監査が「できた気」になっていないか(網羅性の限界)

といった問題を抱える。したがって実務では、行動評価・運用監視を捨てるのではなく、内部監査を追加して多層防御にする発想が現実的である。

Anthropicの回路トレーシング: attribution graphで「どれが効いたか」を辿る

Anthropicは2025年5月29日、LLMの内部計算を部分的に可視化する回路トレーシング(circuit tracing)の手法をオープンソース化したと発表した。中核はattribution graphs(寄与グラフ)であり、特定の出力トークンに対し、どの入力トークンや内部特徴がどの程度寄与したかをグラフとして辿れる。

メディア的には「AIの顕微鏡」の比喩で語られることが多いが、技術的に重要なのは、

  • 単なる可視化(ヒートマップ)ではなく、因果的な寄与を近似して「この出力に効いた内部要素」を絞り込むこと
  • オープンウェイトモデル上での再現性を持たせ、研究コミュニティで検証可能にすること

である。安全性の観点では、危険な出力が出たときに「どの特徴・回路がそれを支えたか」を特定できれば、モデル改変(fine-tuningや重み編集)におけるターゲットが明確になる。

Gemma Scope 2: オープンモデルの内部を「特徴単位」で監査する

Google DeepMindは2025年12月19日、Gemma Scope 2を公開した。Gemma 3の複数サイズ(小型から大型まで)に対して、SAEやトランスコーダ等を含む解釈ツール群を提供し、脱獄や拒否機構、連鎖的なふるまいの分析を支援するとしている。公開記事では、構築に約110PBのデータ保存や、総計1兆パラメータ超の学習規模が関わった旨も述べられている。

Gemma Scope 2が実務者にとって重要なのは、

  • オープンモデルで手元検証しやすい(研究・監査の再現性が高い)
  • 単発の「このニューロンが反応した」ではなく、多数の特徴の組み合わせとして挙動を追える
  • モデルが不正挙動を示した際に、内部表現まで戻って原因究明する導線を提供する

という点である。安全性評価を「ブラックボックス試験」から「内部監査」へ拡張する土台になり得る。

バックドア検出の新線: 「Trigger in the Haystack」が示す現実解

バックドアは、特定のトリガー(文字列やパターン、文脈)でのみ有害挙動が発火するため、通常の評価では見落としやすい。2026年2月3日にarXivへ投稿された論文「The Trigger in the Haystack」は、トリガーや目標挙動を事前に知らない前提で、推論のみ(inference-only)でスキャンする実用的手法を提案している。

論文の主張は大きく2点である。

  • スリーパーエージェント型バックドアは、毒入れデータ(poisoning data)を記憶しやすく、記憶抽出(memory extraction)で例を漏らせる可能性がある
  • トリガーが入力に含まれると、出力分布や注意機構(attention heads)に特徴的なパターンが現れる

機械的解釈可能性の文脈では、この「特徴的パターン」を、SAE特徴や回路追跡と結びつける余地がある。すなわち、

  • 推論スキャンで怪しい入力群を抽出する
  • 内部監査で、どの特徴・回路がトリガーを拾い、どこで挙動が切り替わるかを局在化する
  • 重み編集や再学習で、その回路を無効化し、再発を防ぐ

という監査パイプラインが現実味を帯びる。もちろん、誤検知・見落とし・適用範囲(モデル種、微調整手法)などの限界が残るため、導入は段階的に行うべきである。

FAQ

機械的解釈可能性が進めば、LLMの安全性は保証されるのか?

保証にはならない。内部監査は強力な追加手段だが、網羅性の限界や解釈の誤りがあり得る。評価(evals)・運用監視・ガバナンスと組み合わせた多層防御が前提である。

「顕微鏡」の比喩は何を意味しているのか?

SAE等で密な活性を疎な特徴へ分解し、内部表現を拡大して観察できる点を指す。比喩に留まらず、寄与グラフのように「どれが出力に効いたか」を追う手法が実務上の価値となる。

バックドア検出は、内部監査がないと不可能なのか?

不可能ではない。推論のみでスキャンする手法も提案されている。ただし内部監査を併用できれば、原因の局在化や除去の設計がしやすくなり、再発防止に繋げやすい。

組織として何から着手すべきか?

まずは運用上の安全策(ログ・アクセス制御・ガードレール・インシデント対応)を整備しつつ、重要モデルについては、オープンウェイトで再現可能な解釈ツール(SAE/回路トレーシング)を用いた監査手順を小さく試し、適用範囲と限界を定量化することが現実的である。

参考文献