画像生成で主流となった拡散(Diffusion)アプローチがテキスト生成に本格進出している。2025年2月に発表されたLLaDA(Large Language Diffusion Models)はNeurIPS 2025でオーラルプレゼンテーションに選出され、8Bモデルが LLaMA3 8Bに匹敵する性能を示した。Google DeepMindもGemini Diffusionを投入し、2025年5月に自己回帰モデルとの商用グレード性能パリティを初めて達成した。本稿では、並列トークン生成による高速化と双方向アテンションによる推論品質向上の可能性を技術的に分析する。
なぜテキスト拡散モデルが注目されるのか
従来の大規模言語モデル(LLM)は自己回帰(Autoregressive)アプローチを採用し、トークンを1つずつ順番に生成する。この逐次生成はKVキャッシュにより効率化されているが、本質的に並列化が困難であり、長い出力の生成には時間がかかる。
テキスト拡散言語モデル(DLM)は、この制約を打破するパラダイムとして急速に注目を集めている。DLMは各デノイジングステップで複数のトークンを並列にデコードし、厳密な逐次トークンデコーディングのボトルネックを解消する。LLaDA、Dream、Mercury、Gemini Diffusionなどの大規模DLMが、拡散パラダイムの実現可能性とスケーラビリティを実証している。
このパラダイムは3つの独自の利点を提供する:
- 並列生成: 各デノイジングステップで複数トークンを同時に生成
- 双方向コンテキストモデリング: 全シーケンスに対してアテンションを行い、より豊かな文脈依存性を捕捉
- きめ細かい制御性: 逐次アプローチの根本的制限に対処
LLaDA ── 拡散LLMのブレークスルー
LLaDA(Large Language Diffusion Models)は2025年2月に発表され、LLM能力が自己回帰モデルに依存するという通念に挑戦した。事前学習と教師ありファインチューニングのパラダイム下でスクラッチから訓練された拡散モデルであり、NeurIPS 2025のオーラルプレゼンテーションに選出された。
LLaDAは順方向のデータマスキングプロセスと、マスクされたトークンを予測するTransformerでパラメータ化された逆生成プロセスを採用する。尤度下界を最適化することで、確率的推論のための原理的な生成アプローチを提供している。
主要な成果は以下の通りである:
- LLaDA 8Bは、インコンテキスト学習においてLLaMA3 8Bのような強力なLLMと競争力がある
- SFT後は、マルチターン対話などのケーススタディで印象的な指示追従能力を示す
- 「リバーサルカース(逆転呪い)」に対処し、逆転詩完成タスクでGPT-4oを上回る
- SMDMはマスク拡散モデル初のスケーリング則を導入し、同じモデルサイズと訓練データで自己回帰モデルと同等のダウンストリームベンチマーク結果を達成できることを実証
LLaDAファミリーは急速に拡張しており、LLaDA-V(ビジュアル指示チューニング)、MMaDA(マルチモーダル)、VidLaDA(ビデオ理解)、LLaDA-MoE(スパースMixture of Experts)などのバリアントが登場している。
Gemini Diffusion ── 商用グレードへの到達
Google DeepMindはGemini Diffusionで商用開発をリードしている。2025年5月に自己回帰モデルとの商用グレード性能パリティを初めて達成し、プリンシパルサイエンティストのJack Rae氏はこれを「この分野にとっての画期的瞬間」と表現した。
Gemini Diffusionは初の本番運用可能なDLMを代表するが、現時点では実験的テストフェーズにある。Mercury CoderやGemini Diffusionなどのプロプライエタリシステムは1,000 TPS(Tokens Per Second)を超える推論速度を達成している。
技術的課題と解決アプローチ
理論上、DLMは反復的デノイジングプロセスを通じて複数トークンを並列に生成し、自己回帰モデルの逐次生成効率ボトルネックを克服する道を提供する。しかし実際には、現在のオープンソースDLMは同規模の自己回帰モデルより遅い推論速度を示すことが多い。
主な課題は、生成順序の柔軟性がマスク拡散モデル(MDM)で双方向アテンションを必要とすることにある。このアーキテクチャ選択はKVキャッシングと本質的に互換性がない。各デコーディングイテレーションでコンテキスト全体のKV状態を完全に再計算する必要があり、重大なレイテンシーが発生する。
この課題に対する解決アプローチが活発に研究されている:
Fast-dLLM v2: ブロック拡散メカニズムと補完的アテンションマスクを組み合わせた新しい訓練レシピを導入。ブロックワイズの双方向コンテキストモデリングを可能にする。階層的キャッシングメカニズム(ブロック間の履歴コンテキスト表現を保存するブロックレベルキャッシュと、部分的にデコードされたブロック内での効率的な並列生成を可能にするサブブロックキャッシュ)により、標準的な自己回帰デコーディングと比較して最大2.5倍の高速化を品質低下なしで達成。
ReFusion: 統一因果フレームワークでグローバルな任意順序生成と完全なKVキャッシュ再利用の両方を可能にする異なるアプローチを採用。
Swordsman: GSM8Kで8.79倍の高速化を達成しながら、バニラLLaDAの精度を77.40%から81.50%に改善。
双方向アテンションの利点
拡散言語モデルは通常、双方向(非因果的)アテンションを使用し、すべてのトークンがシーケンス全体のコンテキストにアテンドできる。これにより、より豊かな文脈依存性の捕捉、双方向推論を必要とするタスクでの優位性(リバーサルカース問題でGPT-4を上回るなど)、柔軟な生成順序(低信頼度トークンを再マスク・再予測する適応的生成)が可能になる。
例えばSalesforceのCoDA-1.7Bは、1.7Bパラメータのバックボーンをテキスト用離散拡散に適応させ、マスクされたシーケンスをフルシーケンスアテンションで反復的にデノイズする。これによりネイティブインフィリングと非自己回帰デコーディングが可能となり、固定された生成順序なしで双方向コンテキストを活用できる。
エンタープライズへの示唆
テキスト拡散モデルはまだ発展途上だが、以下の用途で自己回帰モデルを補完または代替する可能性がある:
- コード生成・編集: 双方向コンテキストによるインフィリングタスク
- 高速推論要求環境: 並列生成による低レイテンシー達成(最適化が進んだ場合)
- 双方向推論タスク: 因果関係の逆推論、補完タスク
ただし、現時点では自己回帰モデルの置き換えではなく、特定用途での補完として位置づけるのが現実的である。技術の成熟と最適化の進展を注視しつつ、パイロットプロジェクトでの評価を推奨する。
FAQ
テキスト拡散モデルは自己回帰モデルより本当に高速か?
理論上は並列生成により高速化が可能だが、現時点のオープンソース実装では必ずしも高速ではない。KVキャッシュが使えないことによるオーバーヘッドが課題。ただし、Mercury CoderやGemini Diffusionなどのプロプライエタリシステムは1,000 TPS以上を達成しており、最適化が進めば自己回帰モデルを上回る可能性がある。
LLaDAはGPT-4より優れているのか?
全体的にはGPT-4の方が優れているが、特定タスク(リバーサルカース問題など)ではLLaDAがGPT-4oを上回る。これは双方向アテンションの利点が発揮されるケースである。LLaDA 8BはLLaMA3 8Bと同等レベルで、同規模モデルとしては競争力がある。
拡散モデルのデノイジングステップ数と自己回帰の生成ステップ数はどう比較されるか?
例えば2,000トークンを生成する場合、自己回帰モデルは2,000回の逐次ステップが必要。一方、拡散モデルが64回のデノイジングステップで全トークンを並列生成できれば、計算効率は大幅に向上する。ただし各ステップの計算コストは拡散モデルの方が高いため、単純な比較はできない。
現時点で拡散LLMを採用すべきか?
本番環境での全面採用は時期尚早。ただし、インフィリング、コード補完、特定の推論タスクでのパイロット評価は価値がある。Google Gemini DiffusionやLLaDAの進展を注視し、2026年以降の成熟度を見て判断することを推奨する。
参考文献
- Large Language Diffusion Models — arXiv, 2025年2月
- Large Language Diffusion Models Demo — ML-GSAI, 2025年
- Diffusion Language Models: The New Paradigm — Hugging Face, 2025年
- Beyond Standard LLMs — Sebastian Raschka, 2025年
- Salesforce AI Research Releases CoDA-1.7B — MarkTechPost, 2025年10月
- Swordsman: Entropy-Driven Adaptive Block Partition for Efficient Diffusion Language Models — arXiv, 2026年



