#バックドア検出 | タオリス人機和総研

機械的解釈可能性（mechanistic interpretability）が注目されている。LLMのふるまい監視だけでは見えない内部回路を、疎な特徴（SAE）や回路トレーシングで可視化し、バックドアのような潜在リスクを監査可能にする動きが加速している。