DeepSeekが2025年12月末に公開したManifold-Constrained Hyper-Connections(mHC)は、大規模言語モデル(LLM)のアーキテクチャ設計に根本的な変革をもたらす手法である。追加訓練コストわずか6.7%で、推論・数学・読解の各ベンチマークで最大7.2ポイントの性能向上を達成した。本稿では、mHCの技術的基盤を解析し、DeepSeek-V3.2が実現した「GPT-5同等性能を1/10コストで」という効率革命の全体像を明らかにする。
残差接続の限界とHyper-Connectionsの課題
2015年にResNetで提唱された残差接続(Residual Connection)は、深層ニューラルネットワークの訓練を安定化させる基盤技術として定着した。入力を層の出力に直接加算することで勾配消失を抑制し、数百層規模のネットワーク訓練を可能にした技術である。
しかし、LLMのパラメータ数が数千億規模に達するにつれ、単純な残差接続では情報の流れが制約されるという限界が顕在化した。ByteDanceが提案したHyper-Connections(HC)は、残差ストリームの幅を拡張し接続パターンを多様化することで、この制約を緩和する試みである。
HCは確かに性能向上をもたらしたが、深刻な副作用を抱えていた。接続パターンの多様化が恒等写像(Identity Mapping)特性を破壊し、モデルのスケールアップに伴い信号増幅率が指数関数的に悪化するのである。DeepSeekの実験によれば、27Bパラメータモデルでの信号増幅率は、ベースラインの1.4倍に対してHCでは3,012倍に達し、実質的に大規模訓練が不可能な水準であった。
mHCの技術的革新 ── Birkhoff多面体とSinkhorn-Knoppアルゴリズム
mHCの核心は、HCの接続行列を二重確率行列(Doubly Stochastic Matrix)の集合であるBirkhoff多面体上に射影するという着想にある。二重確率行列とは、各行と各列の和がいずれも1.0となる非負行列であり、この制約を課すことで恒等写像特性が復元され、信号の暴走的増幅が抑制される。
具体的には、各訓練ステップで接続行列に対してSinkhorn-Knoppアルゴリズムを20回反復適用する。Sinkhorn-Knoppアルゴリズムは1967年に提案された行列正規化手法であり、任意の非負行列を交互に行正規化・列正規化することで二重確率行列に収束させる。半世紀以上前の数学的手法が、最先端のLLMアーキテクチャの安定化に寄与するという点は注目に値する。
この制約の効果は劇的である。27Bモデルでの信号増幅率は、HCの3,012倍からmHCではわずか1.6倍に抑制され、ベースライン(1.4倍)とほぼ同等の安定性を維持しながら、HCの性能向上効果を享受できる。残差ストリーム幅を4倍に拡張しても、訓練時間の増加はわずか6.7%に収まる。
ベンチマーク結果 ── 6.7%のコストで最大7.2ポイントの改善
DeepSeekは3B・9B・27Bの3つのモデル規模でmHCの有効性を検証した。27Bパラメータモデルにおける主要ベンチマーク結果は以下の通りである。
BIG-Bench Hard(複合推論タスク)では、ベースラインの43.8%に対しmHCは51.0%を達成し、+7.2ポイントの改善を記録した。DROP(読解力タスク)ではベースライン78.2%に対し81.4%(+3.2ポイント)、GSM8K(数学的問題解決)では82.1%に対し84.9%(+2.8ポイント)、MMLU(汎用知識)では79.4%に対し80.8%(+1.4ポイント)である。
注目すべきは、これらの改善がモデルのパラメータ数を一切増やさずに達成されている点である。訓練時間の増加も一貫して6.5〜6.7%に抑えられており、3Bモデルで100時間→106.5時間、9Bモデルで280時間→298.8時間、27Bモデルで840時間→896.3時間という結果であった。
さらに、インフラストラクチャ最適化としてカーネル融合による約40%のレイテンシ削減、混合精度演算による約30%のメモリ削減、選択的再計算による約25%のメモリ削減、DualPipeによる約50%の通信レイテンシ隠蔽が実装されている。
DeepSeek-V3.2が示す効率革命の全体像
mHCの技術的意義は、DeepSeek-V3.2の実績と合わせて見ることで鮮明になる。DeepSeek-V3.2は総パラメータ数671Bのうち、Mixture-of-Experts(MoE)アーキテクチャにより推論時にはわずか37Bのみを活性化する。DeepSeek Sparse Attention(DSA)により計算量をO(L²)からO(Lk)に削減し、KVキャッシュのメモリ使用量を93%以上削減した。
性能面では、AIME 2025(数学オリンピックレベル)でベースモデルが93.1%、強化版のSpecialeが96.0%を達成し、GPT-5 High(94.6%)を上回った。Codeforces Rating 2386、SWE-Verified 73.1%といったコーディング指標でも最先端の水準を示している。
訓練コストは推定550万ドルで、GPT-5の推定訓練コスト(数億ドル規模)の約1/10とされる。推論コストも128Kトークン処理で約0.70ドル/百万トークンと、前世代のV3.1-Terminus(2.40ドル)から70%削減された。このコスト構造は、「フロンティアAI能力にフロンティア規模の計算予算は不要」というDeepSeekの主張を裏付けるものである。
「認知密度」パラダイムとスケーリング法則の再定義
mHCとDeepSeek-V3.2が示す方向性は、AI業界の根本的なパラダイム転換を反映している。従来のスケーリング法則は「パラメータ数・データ量・計算量を増やせば性能は予測可能に向上する」という前提に立っていた。OpenAIのKaplanらが2020年に定式化したこの法則は、GPU投資競争を正当化する理論的根拠となった。
しかし、DeepSeekのアプローチは「同じパラメータ数でいかに効率的に情報を処理するか」という認知密度(Cognitive Density)の最大化に焦点を当てる。mHCは残差接続の情報フローを最適化し、MoEは必要な専門家のみを活性化し、DSAは注意機構の計算量を削減する。これらは「力任せの拡大」ではなく「構造的な洗練」による性能向上である。
この転換は産業構造にも波及する。NVIDIA H100を数万基確保できるかどうかが競争力を決定するという「計算モート」仮説は、DeepSeekの成果によって揺らぎつつある。アルゴリズムの効率化がハードウェアの物量を代替し得るならば、計算資源に制約のある組織や国家にとってもフロンティアAI開発への参入障壁は大幅に低下する。
2026年後半に予想されるDeepSeek-V4(仮称)やR2への mHC統合は、このパラダイム転換をさらに加速させるだろう。アーキテクチャ効率の追求がどこまでスケーリング法則の壁を押し返せるか、AI研究の最前線で最も注目すべきテーマの一つである。
FAQ
mHC(Manifold-Constrained Hyper-Connections)とは何か?
DeepSeekが2025年12月に発表した、大規模言語モデルの残差接続を最適化する手法である。接続行列をBirkhoff多面体(二重確率行列の集合)上に射影することで、訓練の安定性を維持しながら性能を向上させる。追加訓練コストは約6.7%に抑えられる。
mHCによる具体的な性能改善はどの程度か?
27Bパラメータモデルでの検証では、BIG-Bench Hardで+7.2ポイント、DROPで+3.2ポイント、GSM8Kで+2.8ポイント、MMLUで+1.4ポイントの改善が確認された。いずれもパラメータ数の増加なしに達成されている。
DeepSeek-V3.2はGPT-5と比べてどの程度の性能か?
AIME 2025数学ベンチマークでSpecialeモデルが96.0%を達成し、GPT-5 High(94.6%)を上回った。訓練コストは推定550万ドルで、GPT-5の約1/10とされている。ただし、汎用知識の幅広さでは依然としてGPT-5が優位である。
mHCはどのような既存技術に基づいているか?
1967年に提案されたSinkhorn-Knoppアルゴリズム(行列正規化手法)をLLMのアーキテクチャ最適化に適用している。ByteDanceが提案したHyper-Connections(HC)の発展形であり、HCの性能向上効果を維持しながら訓練の不安定性を解消した。
参考文献
- mHC: Manifold-Constrained Hyper-Connections — arXiv, 2025年12月31日(v2: 2026年1月5日)
- DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models — arXiv, 2025年12月
- DeepSeek kicks off 2026 with paper signalling push to train bigger models for less — South China Morning Post, 2026年1月
- DeepSeek V3.2 Matches GPT-5 Performance with 90% Lower Training Costs — AI News, 2026年1月
- DeepSeek Researchers Apply a 1967 Matrix Normalization Algorithm to Fix Instability in Hyper Connections — MarkTechPost, 2026年1月3日



