2026年5月1日

ハードウェア

216 文字

ASUS Ascent GX10（NVIDIA GB10 / DGX Spark）を使ってみた感想

ASUS Ascent GX10（NVIDIA GB10）を実機検証。273GB/sの帯域制約とMoEモデルによる多接続・高精度の両立方法、Ollama vs vLLMの使い分けを解説。

要約

NVIDIA GB10（Blackwellアーキテクチャ）を搭載した小型アルAIワークステーション、ASUS Ascent GX10（DGX Spark系列）を実機で検証しました。Qwen3.5の70B級モデルが手元の小型筐体で動かせる衝撃と、メモリ帯域 273GB/s というリミットが現実のスループットを縛る現実、そして MoE（Mixture of Experts）モデル によってこの制約を回避し多接続・高精度を両立できる点を、実装者の視点でまとめます。

結論：Ascent GX10 は「LLMをローカルで動かす実用デスクトップ」として現時点で最もバランスが良い選択肢の一つです。

ハードウェア概要

項目	仕様
GPU	NVIDIA GB10（Blackwell）
統合メモリ	128GB LPDDR5X（CPU/GPU共有）
メモリ帯域	~273 GB/s
FP4性能	1 PFLOPS級
OS	Ubuntu 24.04 LTS（aarch64）
形状	小型デスクトップ筐体

ポイントは 128GB の統合メモリ と aarch64 アーキテクチャ です。GPUとCPUが同一メモリを共有するため、PCIe経由のVRAMコピーが不要で、大規模モデルのロードや切替が高速です。

セットアップで詰まった点

aarch64 のバイナリ問題

公開されているDocker imageの多くは linux/amd64 のみ。CUDA系のツールでも --platform=linux/arm64 ビルドが提供されていないものは、ソースから自前ビルドが必要です。

GB10 の CUDA 要件

GB10 は CUDA 12.8 以降が必要です。NVIDIA公式の Ubuntu 24.04 / aarch64 用ドライバは nvidia-driver-580 系を入れます。

Qwen3.5 を動かしてみる

70B クラスのロード

Qwen3.5 72Bの量子化版（Q4_K_M, ~40GB）を Ollama でロード。ロード自体は1～2分で完了。統合メモリのおかげで、モデル切替（72B → 32B → 7B）が PCIe 経由のコピーより圧倒的に速いです。

推論速度の実測

モデル	量子化	速度（tok/s）	備考
Qwen2.5 7B	Q4	60～70	サクサク
Qwen2.5 32B	Q4	22～28	実用域
Qwen2.5 72B	Q4	8～12	単発はOK、多接続は厳しい
Qwen3.5 30B-A3B (MoE)	Q4	50～60	MoEの威力

メモリ帯域 273GB/s というネック

LLM推論は基本的に メモリ帯域律速 です。生成ト1トークンごとに、モデルの全パラメータをメモリから読む必要があります。

理論上限 (tok/s) ≈ メモリ帯域 (GB/s) / モデルサイズ (GB)

72B Q4（絀40GB）なら：

273 / 40 ≈ 6.8 tok/s（理論上限）

密モデルの大きいやつを多人数で叩くのは現実的ではないのが結論です。参考までに、H100 SXM が ~3,350GB/s。データセンターGPUの帯域は1桁上です。

MoEモデルで多接続を実現する

密モデル vs MoE

項目	密モデル（72B）	MoE（30B-A3B）
総パラメータ	72B	30B
推論時アクティブ	72B	~3B
1トークンあたりの帯域消費	大	小
同時接続の捧きやすさ	△	◎
単発の品質	◎	○
メモリ占有	40GB	18GB

5～10人の同時利用を想定するなら、密モデル72Bよりも、MoE 30B クラスを採用した方が体感速度は遥かに快適です。

実用構成例

ベースモデル：Qwen3.5 30B-A3B (MoE)
同時接続：5～8セッション
vLLM の --enable-prefix-caching でプロンプト共通部をキャッシュ
ベクトル検索（pgvector / HNSW）はCPU側で並列化

この構成なら、1セッションあたり 30～40 tok/s を維持しながら、5～8人が同時に使ってもストレスなしという結果になりました。

Ollama vs vLLM の選択

	Ollama	vLLM
長所	セットアップ容易、GGUF量子化豊富	PagedAttentionで多接続高スループット
短所	マルチセッション性能が弱い	aarch64ビルドの整備が必要
向き	単独利用、検証・デモ、量子化モデルを切替えて試す用途	本番運用、社内マルチユーザー、API統合

検証段階は Ollama、運用フェーズで vLLM、という二段ロケットが現実的です。

業務AI基盤としての位置づけ

向くケース

部署・小規模チーム（5～10名）の社内AIアシスタント
機密データを完全オフラインで処理したい用途
設計図面・契約書など機密性の高いドキュメントRAG
複数モデルを切替えながら検証したい開発機

向かないケース

全社100名超の同時利用（複数台 or データセンターGPUを検討）
リアルタイム性が極めて高い対話（H100クラスが要る）
ファインチューニングのフルパラメータ更新（QLoRA程度ならOK）

まとめ

ASUS Ascent GX10 は、「128GB統合メモリ × Blackwell」という構成で、小型筐体でローカルLLMの実用域を切り開いた1台です。273GB/sの帯域がボトルネックになりやすい点は受け入れたうえで、MoEモデルを採用すれば、多接続・高精度・低消費電力のバランスが取れることが検証での結論です。

検証用に1台導入し、社内のPoCから始めるには、現時点で最もコストパフォーマンスに優れた選択肢の一つです。気になる方は一度手を動かしてみる価値があります。

ASUS Ascent GX10（NVIDIA GB10 / DGX Spark）を使ってみた感想

要約

ハードウェア概要

セットアップで詰まった点

aarch64 のバイナリ問題

GB10 の CUDA 要件

Qwen3.5 を動かしてみる

70B クラスのロード

推論速度の実測

メモリ帯域 273GB/s というネック

MoEモデルで多接続を実現する

密モデル vs MoE

実用構成例

Ollama vs vLLM の選択

業務AI基盤としての位置づけ

向くケース

向かないケース

まとめ

ご紹介

ニュースリリース

ASUS Ascent GX10（NVIDIA GB10 / DGX Spark）を使ってみた感想

要約

ハードウェア概要

セットアップで詰まった点

aarch64 のバイナリ問題

GB10 の CUDA 要件

Qwen3.5 を動かしてみる

70B クラスのロード

推論速度の実測

メモリ帯域 273GB/s というネック

MoEモデルで多接続を実現する

密モデル vs MoE

実用構成例

Ollama vs vLLM の選択

業務AI基盤としての位置づけ

向くケース

向かないケース

まとめ

ご紹介

DigitalBaseエンタープライズLLM環境の構築

ChatLM共有RAGナレッジアプリ

ニュースリリース