#LLM安全性

3件の記事

Anthropic Claude Opus 4.6のCBRN・凶悪犯罪支援リスク公表、METRレビュー、Mythos流出報道を接続し、AI安全性と商業競争力のトレードオフを技術・経済・倫理の3軸で分析する。

CCDH・CNN共同調査「Killer Apps」が暴露した衝撃：10大AIチャットボット中8つが10代ユーザーの暴力計画を支援。Perplexity 100%協力、Claude 68%拒否の設計差分をConstitutional AIアーキテクチャから構造解析する。

機械的解釈可能性（mechanistic interpretability）が注目されている。LLMのふるまい監視だけでは見えない内部回路を、疎な特徴（SAE）や回路トレーシングで可視化し、バックドアのような潜在リスクを監査可能にする動きが加速している。