2026年1月14日、AI半導体スタートアップのCerebras Systemsは、OpenAIとの総額100億ドル超の推論用コンピュート契約を発表した。これは750MWの電力容量に相当する大規模な契約であり、NVIDIAが事実上独占してきたAI半導体市場に初めて本格的な対抗軸が生まれたことを意味する。Cerebrasが開発するウェーハスケールエンジン(WSE-3)は、特定の推論ワークロードでNVIDIA Blackwell B200に対し最大21倍の速度優位を実現しており、AI産業が「学習(Training)」から「推論(Inference)」へシフトする構造変化のなかで、半導体勢力図の書き換えが始まっている。

WSE-3の技術的優位性 ── 4兆トランジスタが変えるAI推論の経済学

Cerebrasの第3世代ウェーハスケールエンジン(WSE-3)は、TSMCの5nmプロセスで製造される46,225mm²の巨大チップである。NVIDIA H100の約57倍の面積に4兆個のトランジスタ、90万個のAI最適化コアを集積し、ピーク性能125ペタフロップスを実現する。最大の技術的差別化要因は44GBのオンチップSRAMと21ペタバイト/秒のメモリ帯域幅であり、これはH100の約7,000倍に相当する。

この圧倒的なメモリ帯域幅が推論性能に直結する。Llama 3 70Bモデル(入力1,024トークン、出力4,096トークン)のエンドツーエンドレイテンシベンチマークでは、WSE-3はNVIDIA Blackwell B200に対し21倍の高速化を達成した。さらに、CS-3システムの価格はBlackwell B200の32%低い水準に設定されており、トークンあたりのコストでは約30倍の優位性がある。独立系評価機関Artificial Analysisの測定でも、GPT-OSS-120Bモデルで毎秒2,700トークン以上の推論速度が確認されている(B200は毎秒900トークン)。

この性能差の根本は、従来のGPUアーキテクチャが抱える「メモリウォール」問題にある。推論ワークロードではモデルの重みデータを繰り返し読み出す必要があるが、GPUはオフチップのHBM(High Bandwidth Memory)に依存するため、データ移動がボトルネックとなる。WSE-3は全重みをオンチップSRAMに保持できるため、このボトルネックを根本的に解消している。

OpenAI契約の戦略的意味 ── 750MWが変える半導体調達の力学

2026年1月14日に発表されたOpenAIとの契約は、総額100億ドル超、750MWの推論用コンピュート容量を2028年までの3年間にわたって提供するものである。この契約はCerebrasにとって複数の戦略的意味を持つ。

第一に、顧客集中リスクの解消である。Cerebrasは2024年上半期の売上高の87%をUAEのG42に依存していた。2024年通期の推定売上高は2億7,200万ドル(前年比534%増)と急成長していたが、単一顧客への依存は上場審査上の大きなリスクであった。OpenAIという米国の最重要AIプレイヤーを獲得することで、この懸念は構造的に解消される。

第二に、推論特化型アーキテクチャの市場性を証明した点である。OpenAIはGPT-4の推論コストだけで2024年に推定23億ドルを費やしており、学習コスト(約30億ドル)に迫る水準に達している。世界最大の推論ユーザーがNVIDIA以外のチップを大規模採用する決断は、「推論はGPU以外の選択肢がある」というメッセージを市場に強力に発信した。

第三に、NVIDIAの価格交渉力に対する牽制である。OpenAIにとって、Cerebrasとの契約はNVIDIAへの依存度を下げるレバレッジとなる。Meta、Google、Amazonがそれぞれ自社チップ(TPU、Trainium等)を開発している中、OpenAIはCerebrasとの提携によって同様の交渉力を獲得した。

Inference Flip ── 推論支出が学習を逆転する産業構造変化

AI産業は今、「Inference Flip」と呼ばれる歴史的な転換点を迎えている。2023年にはAIコンピュートの約33%を占めていた推論ワークロードが、2025年に50%に達し、2026年には66%(全体の3分の2)に到達すると予測されている。Deloitteの2026年予測レポートによれば、2026年末までに推論需要は学習需要の118倍に達する見込みである。

この構造変化の背景には、AIの「実験フェーズ」から「実装フェーズ」への移行がある。企業がLLMを学習する段階では巨額の一回性投資が必要だが、そのモデルを実際のサービスに組み込んで推論を実行する段階では、継続的なコンピュート消費が発生する。ChatGPT、Copilot、各種AIエージェントの普及に伴い、推論リクエスト数は指数関数的に増大している。

グローバルなAI推論市場は2024年に972億ドル、2025年に1,135億ドル規模に達し、2030年には2,538億ドル(CAGR 17.5%)まで拡大する見通しである。注目すべきは、推論の単価は2022年11月から2024年10月にかけて280分の1に下落したにもかかわらず、ワークロード量が31倍に増加したため、総支出額は増加し続けている点である。

この「Inference Flip」はNVIDIAの支配構造に直接的な影響を与える。学習用GPU市場ではNVIDIAが95%以上のシェアを維持しているが、推論市場ではCerebras、Google TPU、Amazon Trainium、さらには各種エッジAIチップなど、多様なアーキテクチャが競合する。推論に最適化されたチップ市場は2026年に500億ドル規模に達すると見られ、ここがNVIDIA独占に対する最大の侵食点となる。

IPOと評価額230億ドル ── 半導体スタートアップの新基準

Cerebrasは2024年9月にSECへS-1を機密申請したが、G42との関係をめぐるCFIUS(対米外国投資委員会)の審査により、2025年10月にIPO登録を一時撤回した。CFIUS審査は2025年5月にクリアされたものの、市場環境の精査を経て、2026年Q2(4〜6月)のNASDAQ上場を目指して再申請の準備を進めている。

評価額の推移は劇的である。2024年のSeries F時点で81億ドルであった評価額は、OpenAI契約発表後の2026年2月のSeries Hラウンドで231億ドルに急騰した(わずか4ヶ月で184%増)。このラウンドでは10億ドルの資金調達を完了している。

この評価額は、Cerebrasが単なるチップメーカーではなく「推論時代のインフラ企業」として再評価されたことを示す。OpenAIの100億ドル契約は年間30億ドル超の売上高を保証する可能性があり、2024年の売上高2.7億ドルから10倍以上の成長が見込まれる。IPO時の時価総額が300〜400億ドルに達する可能性も報じられている。

ただし、リスク要因も残る。G42への売上集中が解消途上であること、NVIDIAが2025年12月にGroqを200億ドルで買収するなど推論領域の囲い込みを強化していること、そしてウェーハスケール製造の歩留まりとコスト構造が量産段階で維持可能かという技術的不確実性は、投資判断において注視すべき論点である。

NVIDIA一極支配は終わるのか ── 2027年の半導体勢力図

NVIDIAは2026年2月時点で時価総額5兆ドルを突破し、データセンター向けAIチップ市場で80〜92%のシェアを維持している。この支配力は短期的に崩れるものではない。しかし、中長期的に見れば、いくつかの構造変化がNVIDIA一極体制を侵食しつつある。

第一の変化は、ハイパースケーラーによるカスタムチップ開発の加速である。GoogleはTPUを第6世代まで進化させ、AmazonはTrainiumチップで自社クラウドの自給率を高めている。MicrosoftはBroadcomと共同でカスタムチップを開発中であり、MetaもMTIA(Meta Training and Inference Accelerator)を推進している。これらは各社の自社ワークロード向けだが、NVIDIAの潜在市場を確実に削っている。

第二の変化は、推論特化型スタートアップの台頭である。CerebrasのWSE-3に加え、NVIDIAが200億ドルで買収したGroqのLPU(Language Processing Unit)は、Llama 3 8Bで毎秒877トークンという高速推論を実現していた。NVIDIAがGroqを買収した事実自体が、推論領域における脅威を認識していることの証左である。

第三の変化は、推論市場の経済構造である。学習には数千〜数万GPUのクラスタが必要であり、CUDA/NVLinkエコシステムのロックイン効果が強い。一方、推論はレイテンシとスループットの最適化が主眼であり、アーキテクチャの多様性を許容する。Cerebrasが推論に特化して勝負を仕掛けているのは、この市場構造の非対称性を正確に見抜いているからである。

2027年には、学習市場でNVIDIAが80%以上のシェアを維持する一方、推論市場ではNVIDIAのシェアが60%台まで低下し、Cerebras、Google TPU、Amazon Trainium、その他のスタートアップが残りを分け合う構図が現実的なシナリオとなる。「NVIDIA一極支配の終焉」とは、NVIDIAの衰退ではなく、AI半導体市場が学習と推論で二極化し、推論領域での多極化が進むことを意味する。

FAQ

Cerebras WSE-3はなぜNVIDIA GPUより推論が速いのか?

WSE-3は46,225mm²のウェーハ全体を1つのチップとして使用し、44GBのオンチップSRAMにモデルの重みを全て保持できる。GPUがオフチップメモリ(HBM)とのデータ転送で生じるボトルネックを根本的に解消しているため、Llama 3 70Bの推論でBlackwell B200比21倍の速度を達成している。

OpenAIとの100億ドル契約はCerebrasの経営にどう影響するのか?

2024年上半期の売上の87%を占めていたG42への依存を構造的に解消し、2028年までの安定した収益基盤を確保する。年間30億ドル超の売上が見込まれ、IPO時の評価額を大幅に押し上げる効果がある。

Inference Flipとは何か?

AIコンピュートにおいて、推論(Inference)の支出が学習(Training)の支出を上回る現象を指す。2025年に推論がAIコンピュートの50%に達し、2026年には66%に到達すると予測されている。ChatGPTなどの大規模サービス普及が主因である。

NVIDIAの支配は本当に終わるのか?

学習市場ではNVIDIAが95%以上のシェアを維持する見通しだが、推論市場ではCerebras、Google TPU、Amazon Trainiumなどが競合しシェアの多極化が進む。2027年には推論市場でのNVIDIAシェアが60%台まで低下する可能性がある。

CerebrasのIPOはいつ予定されているのか?

2026年Q2(4〜6月)のNASDAQ上場が見込まれている。2026年2月のSeries Hラウンドで評価額231億ドル(10億ドル調達)を記録しており、IPO時の時価総額は300〜400億ドルに達する可能性がある。

参考文献