Kubernetes DRA GPU利用率70-80%達成の実装ガイド ── MIG・KAI Scheduler統合設計

Kubernetes 1.34でGA（一般提供）に到達したDynamic Resource Allocation（DRA）が、AI推論基盤のGPU利用率を根本から変えようとしている。従来のDevice Pluginモデルでは「1 Pod＝1 GPU」の静的割り当てが前提であり、GPU利用率は業界平均で20-30%に留まっていた。Cast AIの2026年レポートでは平均利用率がわずか5%という数値すら報告されている。DRAは構造化パラメータによるGPUメモリ・MIGパーティション・NVLinkトポロジーの属性認識スケジューリングを実現し、KAI Schedulerのギャングスケジューリング・公平共有キューイングと組み合わせることで、利用率70-80%への3倍改善とインフラコスト50-70%削減を可能にする。本稿では、Kubernetes GPU Confidential Computing実装ガイドで解説したゼロトラスト設計の基盤となるDRAの実装詳細を、設定例・設計パターン・実測値とともに解説する。

DRA（Dynamic Resource Allocation）がDevice Pluginを置き換える技術的理由

Kubernetes におけるGPUスケジューリングは長年、Device Pluginモデルに依存してきた。Device Pluginは2017年のKubernetes 1.8で導入され、GPUを整数カウントの不透明なリソースとして扱う。スケジューラはnvidia.com/gpu: 1というリクエストを見るだけで、そのGPUのメモリ容量・アーキテクチャ・NVLink接続・MIG対応状況といった属性には一切アクセスできない。この設計上の制約が、GPU利用率を20-30%に留める根本原因だった。

DRAはKEP-4381（Structured Parameters）として再設計され、Kubernetes 1.34（2026年3月リリース）でGA到達した。安定APIバージョンはresource.k8s.io/v1であり、今後破壊的変更は行われない。DRAの核心は3つのAPIオブジェクトにある。

ResourceSlice: DRAドライバがノードごとにGPUの詳細属性を公開する。メモリサイズ（例: A100の80GB＝85,899,345,920バイト）、Compute Capability（Ampere: 8.0、Hopper: 9.0）、アーキテクチャ、MIG対応状態、NVLinkピアトポロジーなどが構造化データとして記述される。

ResourceClaim: ユーザーがワークロードに必要なGPU属性を宣言的に記述する。「40GB以上のメモリ、Compute Capability 8.0以上、NVLink接続あり」といった要件をCEL式で表現でき、スケジューラがResourceSliceのデータと直接マッチングする。Device Pluginのように外部コントローラとのネゴシエーションが不要なため、スケジューリング速度も大幅に向上する。

DeviceClass: 管理者がデバイスタイプを抽象化する。mig-gpu-1gやhigh-memory-gpuといったクラスを定義し、ユーザーはハードウェアの詳細を知らずにリソースを要求できる。

Device PluginとDRAの決定的な違いはクラスターオートスケーラとの統合にある。Device Pluginではオートスケーラがデバイスの可用性をシミュレーションできなかったが、DRAではResourceSliceの属性情報を基にノード追加前にアロケーションを事前評価できる。これにより、GPUノードのスケールアウト判断が「ノードを追加してから確認」から「追加前に確認して判断」へ変わった。

さらに、ResourceClaimはPodのライフサイクルから独立しているため、JupyterノートブックがPod再起動後もGPUを保持し続けるといったユースケースが初めて可能になった。Device Pluginモデルでは、Pod再起動のたびにGPUが再割り当てされ、GPUメモリ上のモデルがすべて失われていた。

# ResourceClaim例: 40GB以上のHopper GPUを要求
apiVersion: resource.k8s.io/v1
kind: ResourceClaim
metadata:
  name: llm-inference-gpu
spec:
  devices:
    requests:
    - name: gpu
      deviceClassName: gpu.nvidia.com
      selectors:
      - cel:
          expression: |
            device.attributes["gpu.nvidia.com"].memory >= 40Gi &&
            device.attributes["gpu.nvidia.com"].architecture == "Hopper"

NVIDIA DRA DriverのCNCF寄贈とMIG・NVLink構造化パラメータの実装

2026年3月24日、KubeCon Europe 2026（アムステルダム）において、NVIDIAはGPU用DRAドライバをKubernetesコミュニティに寄贈した。この寄贈により、ドライバはNVIDIA単独の管理からAWS、Google Cloud、Microsoft、Red Hatを含む8社によるコミュニティメンテナンスへ移行した。AMD・Intelなど他のGPUベンダーが同一インターフェースを実装する道も開かれている。

NVIDIA DRAドライバは2つの専用Kubeletプラグインで構成される。gpu-kubelet-pluginがGPUの発見・割り当て・MIGパーティション管理・ヘルスモニタリングを担い、compute-domain-kubelet-pluginがマルチノードNVLink（MNNVL）のIMEXプリミティブを自動管理する。

MIG（Multi-Instance GPU）の動的パーティション管理は、DRAドライバの最も実用的な機能の一つだ。A100やH100では、1つの物理GPUを最大7つの独立インスタンスに分割できる。DRAドライバはMIGパーティションの動的な作成・削除をサポートし、同一ノード上のGPUごとに異なるMIGプロファイルを設定できる。たとえば、GPU 0を7g（フルGPU）のまま大規模モデル推論に使い、GPU 1を1g×7に分割して軽量推論ワークロードを多重化するといった構成が、無停止で実現可能になった。

# DeviceClass例: MIG 1gパーティションを定義
apiVersion: resource.k8s.io/v1
kind: DeviceClass
metadata:
  name: mig-1g-10gb
spec:
  selectors:
  - cel:
      expression: |
        device.attributes["gpu.nvidia.com"].migEnabled == true &&
        device.attributes["gpu.nvidia.com"].migProfile == "1g.10gb"

NVLinkトポロジーの発見と活用も重要な進化だ。DRAドライバはGPU間のNVLinkポートを列挙し、NVLinkドメイン（高帯域幅インターコネクトを共有するGPU群）のマップを構築する。NVIDIA Grace Blackwell（GB200）では最大72GPUが1つのNVLinkドメインを構成できる。ドライバはComputeDomain抽象を提供し、分散学習ジョブのPod間でマルチノードNVLink到達性を保証する。

AWSのP6e-GB200 UltraServerでは、72基のGB200 GPU（FP8で360ペタフロップス、HBM3eメモリ13.4TB）をDRA経由で管理し、EFAv4ネットワーキング（28.8Tbps）と組み合わせてトリリオンパラメータモデルの分散学習を効率化している。従来の静的割り当てでは30-40%だったGPU利用率が、DRA最適化により80-90%に改善された。

筆者の経験では、大規模システムにおいて「止められない」という制約が技術的判断のすべてを支配する。GPU基盤もまた同様で、MIGパーティションの再構成を無停止で行えるDRAの設計は、実運用における最大のペインポイントを解消している。Device Plugin時代は、MIG構成を変更するためにノード全体をドレインし、ワークロードを退避させ、GPU構成を変更し、再スケジュールするという手順が必要だった。

KAI Schedulerによるギャングスケジューリングと公平共有キューイングの実装

GPUの物理的な効率化だけでは、マルチテナント環境での利用率最大化は実現できない。NVIDIAが2025年4月にApache 2.0ライセンスでオープンソース化したKAI Scheduler（旧Run:ai Scheduler）は、GPUクラスタのスケジューリング層で利用率を押し上げる。KAI SchedulerはCNCFサンドボックスプロジェクトとして採択され、数千ノード規模の環境向けに設計されている。

ギャングスケジューリングはKAI Schedulerの中核機能だ。分散学習ジョブが8つのGPU Podを必要とする場合、Device Pluginモデルでは5つのPodだけが先にスケジュールされ、残り3つがリソース待ちになる「部分スケジューリング」が頻発していた。5つのPodは3つを待つ間GPUを占有しつつ実際には何も計算しない——これがGPU利用率を20-30%に留める主要因の一つだった。

KAI SchedulerのPodGroup機能は、ジョブを構成する全Podを原子的なスケジューリング単位として扱う。全Podが同時にスケジュールされるか、1つもスケジュールされないかの二択であり、部分スケジューリングによるGPU浪費が構造的に排除される。階層的PodGroupもサポートしており、分散学習とディスアグリゲーテッドサービング（KVキャッシュ分離）のような多層ワークロードにも対応する。

公平共有キューイングは、チーム間のGPUリソース配分を動的に最適化する。各チームにGPUクォータ（ベースライン割り当て）が設定され、未使用リソースはOver-Quota Weightに基づいて他チームに再配分される。KAI Schedulerは公平共有値をリアルタイムで再計算し、クォータ超過のジョブを退避（Reclaim）させることで公平性を維持する。

# KAI Scheduler キュー設定例
apiVersion: scheduling.run.ai/v2
kind: Queue
metadata:
  name: ml-team-alpha
spec:
  resources:
    gpu:
      quota: 16          # ベースライン16 GPU
      overQuotaWeight: 2  # 余剰リソースの重み
      limit: 32           # 最大32 GPUまで
  parentQueue: department-ai

V2.24以降ではTime-Based Fairshareが導入され、過去のリソース使用量を時間減衰付きで追跡し、長期的な公平性を確保する。月曜に大量のGPUを使ったチームは、火曜には他チームにリソースが優先配分されるといった動的バランシングが自動化された。

KAI Schedulerの4フェーズスケジューリングサイクルは以下の順序で実行される。(1) Cluster Snapshot: ノード・PodGroup・キューの現状を取得。(2) Resource Division: Deserved-QuotaとOver-Quotaアルゴリズムで公平共有を計算。(3) Scheduling Actions: Allocate（割り当て）→ Consolidate（断片化解消）→ Reclaim（超過回収）→ Preempt（優先度制御）の順に実行。(4) Status Updates: 変更を反映しサイクルを再開。

このスケジューリングサイクルにはConsolidate（統合）アクションが含まれている点が重要だ。これはPodをノード間で再配置し、GPU断片化を最小化する。たとえば、4ノードにそれぞれ1GPUずつ空きがある状態で4GPU要求のジョブが来た場合、Consolidateが既存Podを再配置して1ノードに4GPU分の空きを作り出す。Claude Code vs Cursor並列エージェント実装の設計思想差分で解説した並列処理設計と同様に、リソース効率を最大化するアーキテクチャ設計がシステム全体の経済性を決定する。

GPU利用率20-30%から70-80%への改善を実現する統合設計パターン

DRAとKAI Schedulerを組み合わせた統合設計により、GPU利用率を段階的に改善できる。以下に、実運用で検証された段階的アプローチを示す。

Stage 1: DRA基本導入（利用率30-40%達成）。Device PluginからDRAへの移行だけで、属性認識スケジューリングが有効になる。GPUのメモリサイズ・アーキテクチャによるマッチングが可能になり、「A100 80GBに小型モデル（7Bパラメータ）を割り当てて70GB遊ばせる」といった非効率が解消される。Azure AKS上のNDm_A100_v4 VMでのDRA導入事例では、ResourceClaimTemplateによるデバイス要件指定とGPU Operator（--gpu-driver noneオプション）の組み合わせにより、即座に利用率改善が確認された。

Stage 2: MIG＋タイムスライシング導入（利用率50-60%達成）。MIGパーティションで1つのGPUを複数ワークロードに分割する。タイムスライシング単体で20%のコスト削減、モデル統合で追加30-40%の削減が実現する。実例として、Ke Holdingsは13%だったGPU利用率を37%に改善し（約3倍）、SF Technologyは57%のインフラコスト削減を達成した。

Stage 3: KAI Scheduler統合（利用率70-80%達成）。ギャングスケジューリングで部分スケジューリングによるGPU浪費を排除し、公平共有キューイングでチーム間の遊休リソースを動的に再配分する。DaoCloudの実装事例では80%以上のGPU利用率が報告されている。

Kubernetes 1.35の新機能も利用率向上に寄与する。Partitionable Devices（KEP-4815、Alpha）は、ベンダーがオーバーラップするパーティションをオンデマンドで作成可能にし、DRA標準のMIG管理をさらに柔軟化する。Consumable Capacity（KEP-5075、Alpha）は、無関係なPodからの複数ResourceClaimが同一物理デバイスを共有できるようにし、管理者が共有ポリシーを定義する。

コスト削減の全体像を整理する。タイムスライシングで20%、モデル統合で30-40%、さらにCPU/メモリの同時最適化を加えることで、総インフラコスト70%以上の削減が達成可能だ。100基のH100 GPU（1基あたり約,000）を運用する環境では、利用率を30%から80%に改善することで、同一ワークロードを約38基で処理可能になり、GPU調達費用だけで約190万ドルの削減に相当する。

実際のプロジェクトで筆者が経験したのは、2000人同時接続のリアルタイムシステム構築における教訓だが、「個別の最適化では壁を越えられない」という原則はGPU基盤にも当てはまる。DRA単体、MIG単体、KAI Scheduler単体ではそれぞれ部分的な改善に留まるが、3つを統合した設計パターンが70-80%という利用率を初めて実現可能にしている。

エンタープライズ導入ロードマップと実測ROI

DRA導入は既存クラスタへの段階的移行が推奨される。以下に、クラウドベンダーの実装状況と推奨ロードマップを示す。

AWS EKS: P6e-GB200 UltraServer（最大72 GB200 GPU、FP8 360ペタフロップス）でDRAを本格サポート。IMEXチャネルによるクロスノードGPU通信とトポロジー認識スケジューリングを統合。Dallas Local ZoneのEC2 Capacity Blocks for MLで利用可能。

Azure AKS: 2026年3月からMIG＋DRAの統合サポートを提供。「アクセラレータがエラスティックかつ共有可能で、コントロールプレーンのファーストクラスリソースとなるモデル」を実現。vLLM（LLMサービングフレームワーク）のH100上での複数AIモデル同時実行を公式にサポートしている。

Google GKE: StandardモードとAutopilotモードの両方でB200・H200・H100・A100をサポート。Managed DRANETによる高度なオーケストレーションと、GKE Inference Gatewayによるプライベートモデルサービングを提供。Autopilotモードでは、ワークロードマニフェストにGPUリソースを指定するだけで自動的にキャパシティ管理が行われる。

推奨導入ロードマップ:

Phase 1: 小規模ノードプールでDRAを有効化し、既存Device Pluginと並行運用。ResourceClaimによるGPU要求を標準推論ワークロードから開始
Phase 2: GPU OperatorとMIGを導入。DeviceClassでMIGプロファイルを定義し、軽量推論ワークロードの多重化を開始
Phase 3: Gateway API Inference Extension（v1.3.1 GA、2026年2月）を導入し、モデル名ベースルーティングとKVキャッシュ認識スケジューリングを有効化
Phase 4: KAI Schedulerを導入し、ギャングスケジューリングと公平共有キューイングでマルチテナントGPU管理を統合
Phase 5: Cilium eBPFネットワークを導入（分散学習レイテンシ40%削減）し、AI Runway等の推論デプロイプラットフォームと統合

OpenAIのKubernetes導入事例は規模の参考になる。2,500ノード以上（5,000ノード以上を計画）のGPUクラスタをAzure上で運用し、Kubernetes導入前は数百GPUへのスケールに1-2ヶ月要していたのが、導入後は2-3日で起動、1-2週間でスケールアウト可能になった。CNCFの2025年年次調査では、調査対象組織の82%がAI本番環境でKubernetesを使用していると回答しており、DRAのGA到達によりこの比率はさらに上昇すると見込まれる。

AI開発の技術的負債加速で分析したように、AI基盤への投資はコード生成の効率化だけでなく、そのコードを実行するインフラの経済性にも直結する。DRA＋MIG＋KAI Schedulerの統合設計は、AI推論基盤のTCO（総保有コスト）を構造的に改善する数少ない手段だ。

FAQ

DRA（Dynamic Resource Allocation）はKubernetesのどのバージョンから使えますか？

DRAはKubernetes 1.26でAlpha導入され、1.34（2026年3月リリース）でGA（一般提供）に到達しました。GA版のAPIはresource.k8s.io/v1で、デフォルトで有効化されています。安定APIのため、今後破壊的変更は行われません。1.33以前のバージョンではフィーチャーゲートの明示的な有効化が必要です。

Device PluginからDRAへの移行は既存ワークロードに影響しますか？

DRAとDevice Pluginは並行運用可能です。推奨される移行戦略は、小規模ノードプールでDRAを有効化し、新規ワークロードからResourceClaimベースのGPU要求に切り替えることです。既存のDevice Plugin設定はそのまま動作するため、段階的な移行が可能です。

MIG（Multi-Instance GPU）はどのGPUで使えますか？

MIGはNVIDIA A100、A30、H100、H200、GB200で利用可能です。A100では最大7インスタンス、H100ではより柔軟なパーティション構成が可能です。DRAドライバにより、同一ノード上のGPUごとに異なるMIGプロファイルを無停止で設定・変更できます。

KAI Schedulerは標準のkube-schedulerと共存できますか？

はい。KAI Schedulerは追加のスケジューラとして導入可能で、GPUワークロード専用のスケジューリングポリシーを適用できます。Kubeflow、Ray、Argoなどの分散学習フレームワークとの組み込みPodGrouper統合も提供されており、フレームワーク側の設定変更は最小限です。

GPU利用率70-80%は本当に達成可能ですか？

DRA＋MIG＋KAI Schedulerの統合構成で、DaoCloudが80%以上、AWSのP6e-GB200環境で80-90%の利用率が報告されています。ただし達成にはワークロード特性に応じたMIGプロファイル設計、キュー構成、トポロジー最適化の段階的チューニングが必要です。単一技術の導入だけでは50-60%が現実的な上限です。

DRAはオンプレミスGPUクラスタでも使えますか？

はい。DRAはKubernetesのコア機能であり、クラウド・オンプレミスを問わず利用可能です。NVIDIA DRAドライバはCNCFコミュニティに寄贈されており、GPU Confidential Computingと組み合わせたオンプレミスのセキュアAI推論基盤構築にも適用できます。

Kubernetes 1.35で追加されるDRA関連の新機能は何ですか？

1.35ではDevice Binding Conditions（Beta）とPartitionable Devices（KEP-4815、Alpha）、Consumable Capacity（KEP-5075、Alpha）が追加されます。Partitionable Devicesはオーバーラップするパーティションのオンデマンド作成を、Consumable Capacityは複数Podによるデバイス共有を実現します。

参考文献

Kubernetes v1.34: Dynamic Resource Allocation updates — Kubernetes Blog, 2025年9月
Dynamic Resource Allocation - Kubernetes Documentation — Kubernetes公式ドキュメント
Advancing Open Source AI: NVIDIA Donates DRA Driver for GPUs to Kubernetes Community — NVIDIA Blog, 2026年3月
NVIDIA Open Sources Run:ai Scheduler to Foster Community Collaboration — NVIDIA Developer Blog, 2025年4月
KAI Scheduler GitHub Repository — NVIDIA/KAI-Scheduler, Apache 2.0
Unlocking next-generation AI performance with DRA on Amazon EKS and EC2 P6e-GB200 — AWS Containers Blog, 2026年
Running more with less: Multi-instance GPU with DRA on AKS — Azure AKS Blog, 2026年3月
KEP-4381: DRA Structured Parameters — Kubernetes Enhancements
The platform under the model: How cloud native powers AI engineering in production — CNCF Blog, 2026年3月

Kubernetes DRA GPU利用率70-80%達成の実装ガイド ── 従来20-30%からの3倍改善を実現する動的リソース割り当て・MIG属性認識・ギャングスケジューリング統合設計