大規模言語モデル(LLM)の安全性は、長らく「入出力のふるまい」から推し量るしかなかった。脱獄(jailbreak)や有害出力の評価、レッドチーミング、運用時のモニタリングは重要である一方、モデル内部がブラックボックスである限り、原因究明と再発防止は難しい。
その状況を変えつつあるのが機械的解釈可能性(mechanistic interpretability)である。MIT Technology Reviewは、2026年版「10 Breakthrough Technologies」でこの潮流を取り上げ、内部の計算過程に迫るアプローチが前進していると述べている(2026年1月12日に同年リストの公開を発表)。
本稿では、行動監視から内部構造監査への進化として、Anthropicの回路トレーシング(attribution graphs)、Google DeepMindのGemma Scope 2、そしてMicrosoft研究者らの「Trigger in the Haystack」によるバックドア検出を軸に、LLM安全性の新しい守り方を整理する。
機械的解釈可能性が狙うもの: 「原因」をモデル内部に求める
機械的解釈可能性は、ニューラルネットワークを「デバッグ可能なプログラム」に近づける試みである。入力と出力の対応(ふるまい)だけでなく、内部の特徴(features)や回路(circuits)が、どのように情報を保持し、変換し、最終出力へ寄与するかを追跡する。
従来の安全対策は、次の性格を持っていた。
- 評価(evals): 特定の危険タスクに対する成功率や拒否率を測る。
- レッドチーミング: 予期せぬ抜け道を探索し、パッチや方針で抑制する。
- 運用モニタリング: ログ、ガードレール、レート制限等で被害を抑える。
一方で、バックドア(sleeper agent)的な「条件付きで起動する挙動」や、学習データ由来の偏りが、どの内部表現に埋め込まれているのかは、上記だけでは見えにくい。機械的解釈可能性は、この「埋め込み先」を特定し、再発防止策(再学習・重み修正・回路の無効化)に結びつけることを狙う。
内部監査を可能にした鍵: 疎な特徴(SAE)と回路レベルの追跡
近年の代表的な前進は、疎な特徴を抽出する疎オートエンコーダ(Sparse Autoencoders: SAEs)や、それを拡張したトランスコーダの利用である。密な活性(activations)を、より解釈しやすい疎な特徴へ展開し、「何が発火したか」「どの特徴が出力に効いたか」を追えるようにする。
ただし注意点もある。解釈可能性は多くの場合、
- 特徴に付けたラベルが妥当か(人間の解釈バイアス)
- モデルサイズや分布の変化にどこまで頑健か
- 監査が「できた気」になっていないか(網羅性の限界)
といった問題を抱える。したがって実務では、行動評価・運用監視を捨てるのではなく、内部監査を追加して多層防御にする発想が現実的である。
Anthropicの回路トレーシング: attribution graphで「どれが効いたか」を辿る
Anthropicは2025年5月29日、LLMの内部計算を部分的に可視化する回路トレーシング(circuit tracing)の手法をオープンソース化したと発表した。中核はattribution graphs(寄与グラフ)であり、特定の出力トークンに対し、どの入力トークンや内部特徴がどの程度寄与したかをグラフとして辿れる。
メディア的には「AIの顕微鏡」の比喩で語られることが多いが、技術的に重要なのは、
- 単なる可視化(ヒートマップ)ではなく、因果的な寄与を近似して「この出力に効いた内部要素」を絞り込むこと
- オープンウェイトモデル上での再現性を持たせ、研究コミュニティで検証可能にすること
である。安全性の観点では、危険な出力が出たときに「どの特徴・回路がそれを支えたか」を特定できれば、モデル改変(fine-tuningや重み編集)におけるターゲットが明確になる。
Gemma Scope 2: オープンモデルの内部を「特徴単位」で監査する
Google DeepMindは2025年12月19日、Gemma Scope 2を公開した。Gemma 3の複数サイズ(小型から大型まで)に対して、SAEやトランスコーダ等を含む解釈ツール群を提供し、脱獄や拒否機構、連鎖的なふるまいの分析を支援するとしている。公開記事では、構築に約110PBのデータ保存や、総計1兆パラメータ超の学習規模が関わった旨も述べられている。
Gemma Scope 2が実務者にとって重要なのは、
- オープンモデルで手元検証しやすい(研究・監査の再現性が高い)
- 単発の「このニューロンが反応した」ではなく、多数の特徴の組み合わせとして挙動を追える
- モデルが不正挙動を示した際に、内部表現まで戻って原因究明する導線を提供する
という点である。安全性評価を「ブラックボックス試験」から「内部監査」へ拡張する土台になり得る。
バックドア検出の新線: 「Trigger in the Haystack」が示す現実解
バックドアは、特定のトリガー(文字列やパターン、文脈)でのみ有害挙動が発火するため、通常の評価では見落としやすい。2026年2月3日にarXivへ投稿された論文「The Trigger in the Haystack」は、トリガーや目標挙動を事前に知らない前提で、推論のみ(inference-only)でスキャンする実用的手法を提案している。
論文の主張は大きく2点である。
- スリーパーエージェント型バックドアは、毒入れデータ(poisoning data)を記憶しやすく、記憶抽出(memory extraction)で例を漏らせる可能性がある
- トリガーが入力に含まれると、出力分布や注意機構(attention heads)に特徴的なパターンが現れる
機械的解釈可能性の文脈では、この「特徴的パターン」を、SAE特徴や回路追跡と結びつける余地がある。すなわち、
- 推論スキャンで怪しい入力群を抽出する
- 内部監査で、どの特徴・回路がトリガーを拾い、どこで挙動が切り替わるかを局在化する
- 重み編集や再学習で、その回路を無効化し、再発を防ぐ
という監査パイプラインが現実味を帯びる。もちろん、誤検知・見落とし・適用範囲(モデル種、微調整手法)などの限界が残るため、導入は段階的に行うべきである。
FAQ
機械的解釈可能性が進めば、LLMの安全性は保証されるのか?
保証にはならない。内部監査は強力な追加手段だが、網羅性の限界や解釈の誤りがあり得る。評価(evals)・運用監視・ガバナンスと組み合わせた多層防御が前提である。
「顕微鏡」の比喩は何を意味しているのか?
SAE等で密な活性を疎な特徴へ分解し、内部表現を拡大して観察できる点を指す。比喩に留まらず、寄与グラフのように「どれが出力に効いたか」を追う手法が実務上の価値となる。
バックドア検出は、内部監査がないと不可能なのか?
不可能ではない。推論のみでスキャンする手法も提案されている。ただし内部監査を併用できれば、原因の局在化や除去の設計がしやすくなり、再発防止に繋げやすい。
組織として何から着手すべきか?
まずは運用上の安全策(ログ・アクセス制御・ガードレール・インシデント対応)を整備しつつ、重要モデルについては、オープンウェイトで再現可能な解釈ツール(SAE/回路トレーシング)を用いた監査手順を小さく試し、適用範囲と限界を定量化することが現実的である。
参考文献
- MIT Technology Review Announces the 2026 list of 10 Breakthrough Technologies — PR Newswire (MIT Technology Review), 2026-01-12
- Mechanistic interpretability: 10 Breakthrough Technologies 2026 (MIT Technology Review Post) — LinkedIn (MIT Technology Review), 2026
- Open-sourcing circuit tracing tools — Anthropic, 2025-05-29
- Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior — Google DeepMind, 2025-12-19
- The Trigger in the Haystack: Extracting and Reconstructing LLM Backdoor Triggers — arXiv, 2026-02-03



