2026年5月1日
ハードウェア
ASUS Ascent GX10(NVIDIA GB10 / DGX Spark)を使ってみた感想
ASUS Ascent GX10(NVIDIA GB10)を実機検証。273GB/sの帯域制約とMoEモデルによる多接続・高精度の両立方法、Ollama vs vLLMの使い分けを解説。

要約
NVIDIA GB10(Blackwellアーキテクチャ)を搭載した小型アルAIワークステーション、ASUS Ascent GX10(DGX Spark系列)を実機で検証しました。Qwen3.5の70B級モデルが手元の小型筐体で動かせる衝撃と、メモリ帯域 273GB/s というリミットが現実のスループットを縛る現実、そして MoE(Mixture of Experts)モデル によってこの制約を回避し多接続・高精度を両立できる点を、実装者の視点でまとめます。
結論:Ascent GX10 は「LLMをローカルで動かす実用デスクトップ」として現時点で最もバランスが良い選択肢の一つです。
ハードウェア概要
| 項目 | 仕様 |
|---|---|
| GPU | NVIDIA GB10(Blackwell) |
| 統合メモリ | 128GB LPDDR5X(CPU/GPU共有) |
| メモリ帯域 | ~273 GB/s |
| FP4性能 | 1 PFLOPS級 |
| OS | Ubuntu 24.04 LTS(aarch64) |
| 形状 | 小型デスクトップ筐体 |
ポイントは 128GB の統合メモリ と aarch64 アーキテクチャ です。GPUとCPUが同一メモリを共有するため、PCIe経由のVRAMコピーが不要で、大規模モデルのロードや切替が高速です。
セットアップで詰まった点
aarch64 のバイナリ問題
公開されているDocker imageの多くは linux/amd64 のみ。CUDA系のツールでも --platform=linux/arm64 ビルドが提供されていないものは、ソースから自前ビルドが必要です。
GB10 の CUDA 要件
GB10 は CUDA 12.8 以降が必要です。NVIDIA公式の Ubuntu 24.04 / aarch64 用ドライバは nvidia-driver-580 系を入れます。
Qwen3.5 を動かしてみる
70B クラスのロード
Qwen3.5 72Bの量子化版(Q4_K_M, ~40GB)を Ollama でロード。ロード自体は1~2分で完了。統合メモリのおかげで、モデル切替(72B → 32B → 7B)が PCIe 経由のコピーより圧倒的に速いです。
推論速度の実測
| モデル | 量子化 | 速度(tok/s) | 備考 |
|---|---|---|---|
| Qwen2.5 7B | Q4 | 60~70 | サクサク |
| Qwen2.5 32B | Q4 | 22~28 | 実用域 |
| Qwen2.5 72B | Q4 | 8~12 | 単発はOK、多接続は厳しい |
| Qwen3.5 30B-A3B (MoE) | Q4 | 50~60 | MoEの威力 |
メモリ帯域 273GB/s というネック
LLM推論は基本的に メモリ帯域律速 です。生成ト1トークンごとに、モデルの全パラメータをメモリから読む必要があります。
理論上限 (tok/s) ≈ メモリ帯域 (GB/s) / モデルサイズ (GB)
72B Q4(絀40GB)なら:
273 / 40 ≈ 6.8 tok/s(理論上限)
密モデルの大きいやつを多人数で叩くのは現実的ではないのが結論です。参考までに、H100 SXM が ~3,350GB/s。データセンターGPUの帯域は1桁上です。
MoEモデルで多接続を実現する
密モデル vs MoE
| 項目 | 密モデル(72B) | MoE(30B-A3B) |
|---|---|---|
| 総パラメータ | 72B | 30B |
| 推論時アクティブ | 72B | ~3B |
| 1トークンあたりの帯域消費 | 大 | 小 |
| 同時接続の捧きやすさ | △ | ◎ |
| 単発の品質 | ◎ | ○ |
| メモリ占有 | 40GB | 18GB |
5~10人の同時利用を想定するなら、密モデル72Bよりも、MoE 30B クラスを採用した方が体感速度は遥かに快適です。
実用構成例
- ベースモデル:
Qwen3.5 30B-A3B(MoE) - 同時接続:5~8セッション
- vLLM の
--enable-prefix-cachingでプロンプト共通部をキャッシュ - ベクトル検索(pgvector / HNSW)はCPU側で並列化
この構成なら、1セッションあたり 30~40 tok/s を維持しながら、5~8人が同時に使ってもストレスなしという結果になりました。
Ollama vs vLLM の選択
| Ollama | vLLM | |
|---|---|---|
| 長所 | セットアップ容易、GGUF量子化豊富 | PagedAttentionで多接続高スループット |
| 短所 | マルチセッション性能が弱い | aarch64ビルドの整備が必要 |
| 向き | 単独利用、検証・デモ、量子化モデルを切替えて試す用途 | 本番運用、社内マルチユーザー、API統合 |
検証段階は Ollama、運用フェーズで vLLM、という二段ロケットが現実的です。
業務AI基盤としての位置づけ
向くケース
- 部署・小規模チーム(5~10名)の社内AIアシスタント
- 機密データを完全オフラインで処理したい用途
- 設計図面・契約書など機密性の高いドキュメントRAG
- 複数モデルを切替えながら検証したい開発機
向かないケース
- 全社100名超の同時利用(複数台 or データセンターGPUを検討)
- リアルタイム性が極めて高い対話(H100クラスが要る)
- ファインチューニングのフルパラメータ更新(QLoRA程度ならOK)
まとめ
ASUS Ascent GX10 は、「128GB統合メモリ × Blackwell」という構成で、小型筐体でローカルLLMの実用域を切り開いた1台です。273GB/sの帯域がボトルネックになりやすい点は受け入れたうえで、MoEモデルを採用すれば、多接続・高精度・低消費電力のバランスが取れることが検証での結論です。
検証用に1台導入し、社内のPoCから始めるには、現時点で最もコストパフォーマンスに優れた選択肢の一つです。気になる方は一度手を動かしてみる価値があります。