2026年5月1日
ハードウェア
ASUS Ascent GX10(NVIDIA GB10 / DGX Spark)実機検証|小型筐体で動かすローカルLLMの実用性
NVIDIA GB10搭載のASUS Ascent GX10を実機検証。273GB/sのメモリ帯域がスループットに与える制約と、MoEモデルによる多接続・高精度の両立、OllamaとvLLMの使い分けを、業務AI基盤の観点から解説します。

概要
NVIDIA GB10(Blackwellアーキテクチャ)を搭載する小型AIワークステーション「ASUS Ascent GX10」(DGX Spark系列)について、DigitalBaseで実機検証を実施しました。本稿では、70Bクラスのモデルを小型筐体で運用できる利点と、メモリ帯域 273GB/s がスループットに与える制約、そして MoE(Mixture of Experts)モデル によって多接続と高精度を両立する手法を、業務AI基盤の構築という観点から整理します。
結論として、Ascent GX10 は「ローカルでLLMを運用する実用デスクトップ」として、現時点で最もバランスに優れた選択肢の一つと評価しています。
ハードウェア概要
| 項目 | 仕様 |
|---|---|
| GPU | NVIDIA GB10(Blackwell) |
| 統合メモリ | 128GB LPDDR5X(CPU/GPU共有) |
| メモリ帯域 | 約273 GB/s |
| FP4性能 | 1 PFLOPS級 |
| OS | Ubuntu 24.04 LTS(aarch64) |
| 形状 | 小型デスクトップ筐体 |
注目すべきは 128GB の統合メモリ と aarch64 アーキテクチャ です。GPUとCPUが同一メモリを共有するため、PCIe経由のVRAMコピーが発生せず、大規模モデルのロードや切り替えを高速に行えます。
セットアップ上の注意点
aarch64 のバイナリ問題
公開されているDocker imageの多くは linux/amd64 のみの提供です。CUDA系のツールでも --platform=linux/arm64 ビルドが用意されていないものは、ソースからの自前ビルドが必要になります。
GB10 の CUDA 要件
GB10 は CUDA 12.8 以降 を要求します。NVIDIA公式の Ubuntu 24.04 / aarch64 用ドライバでは nvidia-driver-580 系を導入します。
モデルの動作検証
70Bクラスのロード
70Bクラスの量子化モデル(Q4_K_M, 約40GB)を Ollama でロードしたところ、ロード自体は1〜2分で完了しました。統合メモリの恩恵により、モデル切り替え(72B → 32B → 7B)が PCIe 経由のコピーと比べて大幅に高速です。
推論速度の実測
| モデル | 量子化 | 速度(tok/s) | 備考 |
|---|---|---|---|
| Qwen2.5 7B | Q4 | 60〜70 | 軽快 |
| Qwen2.5 32B | Q4 | 22〜28 | 実用域 |
| Qwen2.5 72B | Q4 | 8〜12 | 単発は可、多接続は厳しい |
| Qwen3 30B-A3B(MoE) | Q4 | 50〜60 | MoEの優位性が顕著 |
メモリ帯域 273GB/s というボトルネック
LLM推論は基本的に メモリ帯域律速 です。1トークンを生成するたびに、モデルの全パラメータをメモリから読み出す必要があります。
理論上限 (tok/s) ≈ メモリ帯域 (GB/s) / モデルサイズ (GB)
72B Q4(約40GB)の場合は以下のとおりです。
273 / 40 ≈ 6.8 tok/s(理論上限)
つまり、大規模な密モデルを多人数で同時利用する構成は現実的ではないという結論になります。参考までに、データセンター向けの H100 SXM は約 3,350GB/s であり、帯域は1桁上です。
MoEモデルによる多接続の実現
密モデル vs MoE
| 項目 | 密モデル(72B) | MoE(30B-A3B) |
|---|---|---|
| 総パラメータ | 72B | 30B |
| 推論時アクティブ | 72B | 約3B |
| 1トークンあたりの帯域消費 | 大 | 小 |
| 同時接続のさばきやすさ | △ | ◎ |
| 単発の品質 | ◎ | ○ |
| メモリ占有 | 40GB | 18GB |
5〜10名の同時利用を想定する場合、密モデルの72Bよりも MoE 30Bクラスを採用したほうが、体感速度の面で大きく有利です。
実用構成例
- ベースモデル:
Qwen3 30B-A3B(MoE) - 同時接続:5〜8セッション
- vLLM の
--enable-prefix-cachingでプロンプトの共通部分をキャッシュ - ベクトル検索(pgvector / HNSW)はCPU側で並列化
この構成では、1セッションあたり 30〜40 tok/s を維持しつつ、5〜8名が同時に利用しても支障のない応答性能を確認できました。
Ollama と vLLM の使い分け
| Ollama | vLLM | |
|---|---|---|
| 長所 | セットアップが容易、GGUF量子化が豊富 | PagedAttentionによる多接続・高スループット |
| 短所 | マルチセッション性能が弱い | aarch64ビルドの整備が必要 |
| 適性 | 単独利用、検証・デモ、量子化モデルの切り替え検証 | 本番運用、社内マルチユーザー、API統合 |
検証フェーズは Ollama、運用フェーズは vLLM という段階的な構成が現実的です。
業務AI基盤としての位置づけ
適しているケース
- 部署・小規模チーム(5〜10名)の社内AIアシスタント
- 機密データを完全オフラインで処理したい用途
- 設計図面・契約書など機密性の高いドキュメントのRAG
- 複数モデルを切り替えながら評価する開発機
適していないケース
- 全社100名超の同時利用(複数台構成またはデータセンターGPUを推奨)
- リアルタイム性が極めて高い対話用途(H100クラスが必要)
- フルパラメータのファインチューニング(QLoRA程度であれば対応可能)
まとめ
ASUS Ascent GX10 は、「128GB統合メモリ × Blackwell」という構成により、小型筐体でローカルLLMの実用域を切り開いた製品です。273GB/s のメモリ帯域がボトルネックになりやすい点を前提として受け入れたうえで、MoEモデルを採用することで、多接続・高精度・低消費電力のバランスを取れることが、今回の検証における結論です。
検証用に1台導入し、社内PoCから着手する用途には、現時点で最もコストパフォーマンスに優れた選択肢の一つと言えます。
