2026年5月1日

ハードウェア

204 文字

ASUS Ascent GX10（NVIDIA GB10 / DGX Spark）実機検証｜小型筐体で動かすローカルLLMの実用性

NVIDIA GB10搭載のASUS Ascent GX10を実機検証。273GB/sのメモリ帯域がスループットに与える制約と、MoEモデルによる多接続・高精度の両立、OllamaとvLLMの使い分けを、業務AI基盤の観点から解説します。

概要

NVIDIA GB10（Blackwellアーキテクチャ）を搭載する小型AIワークステーション「ASUS Ascent GX10」（DGX Spark系列）について、DigitalBaseで実機検証を実施しました。本稿では、70Bクラスのモデルを小型筐体で運用できる利点と、メモリ帯域 273GB/s がスループットに与える制約、そして MoE（Mixture of Experts）モデル によって多接続と高精度を両立する手法を、業務AI基盤の構築という観点から整理します。

結論として、Ascent GX10 は「ローカルでLLMを運用する実用デスクトップ」として、現時点で最もバランスに優れた選択肢の一つと評価しています。

ハードウェア概要

項目	仕様
GPU	NVIDIA GB10（Blackwell）
統合メモリ	128GB LPDDR5X（CPU/GPU共有）
メモリ帯域	約273 GB/s
FP4性能	1 PFLOPS級
OS	Ubuntu 24.04 LTS（aarch64）
形状	小型デスクトップ筐体

注目すべきは 128GB の統合メモリ と aarch64 アーキテクチャ です。GPUとCPUが同一メモリを共有するため、PCIe経由のVRAMコピーが発生せず、大規模モデルのロードや切り替えを高速に行えます。

セットアップ上の注意点

aarch64 のバイナリ問題

公開されているDocker imageの多くは linux/amd64 のみの提供です。CUDA系のツールでも --platform=linux/arm64 ビルドが用意されていないものは、ソースからの自前ビルドが必要になります。

GB10 の CUDA 要件

GB10 は CUDA 12.8 以降 を要求します。NVIDIA公式の Ubuntu 24.04 / aarch64 用ドライバでは nvidia-driver-580 系を導入します。

モデルの動作検証

70Bクラスのロード

70Bクラスの量子化モデル（Q4_K_M, 約40GB）を Ollama でロードしたところ、ロード自体は1〜2分で完了しました。統合メモリの恩恵により、モデル切り替え（72B → 32B → 7B）が PCIe 経由のコピーと比べて大幅に高速です。

推論速度の実測

モデル	量子化	速度（tok/s）	備考
Qwen2.5 7B	Q4	60〜70	軽快
Qwen2.5 32B	Q4	22〜28	実用域
Qwen2.5 72B	Q4	8〜12	単発は可、多接続は厳しい
Qwen3 30B-A3B（MoE）	Q4	50〜60	MoEの優位性が顕著

メモリ帯域 273GB/s というボトルネック

LLM推論は基本的に メモリ帯域律速 です。1トークンを生成するたびに、モデルの全パラメータをメモリから読み出す必要があります。

理論上限 (tok/s) ≈ メモリ帯域 (GB/s) / モデルサイズ (GB)

72B Q4（約40GB）の場合は以下のとおりです。

273 / 40 ≈ 6.8 tok/s（理論上限）

つまり、大規模な密モデルを多人数で同時利用する構成は現実的ではないという結論になります。参考までに、データセンター向けの H100 SXM は約 3,350GB/s であり、帯域は1桁上です。

MoEモデルによる多接続の実現

密モデル vs MoE

項目	密モデル（72B）	MoE（30B-A3B）
総パラメータ	72B	30B
推論時アクティブ	72B	約3B
1トークンあたりの帯域消費	大	小
同時接続のさばきやすさ	△	◎
単発の品質	◎	○
メモリ占有	40GB	18GB

5〜10名の同時利用を想定する場合、密モデルの72Bよりも MoE 30Bクラスを採用したほうが、体感速度の面で大きく有利です。

実用構成例

ベースモデル：Qwen3 30B-A3B（MoE）
同時接続：5〜8セッション
vLLM の --enable-prefix-caching でプロンプトの共通部分をキャッシュ
ベクトル検索（pgvector / HNSW）はCPU側で並列化

この構成では、1セッションあたり 30〜40 tok/s を維持しつつ、5〜8名が同時に利用しても支障のない応答性能を確認できました。

Ollama と vLLM の使い分け

	Ollama	vLLM
長所	セットアップが容易、GGUF量子化が豊富	PagedAttentionによる多接続・高スループット
短所	マルチセッション性能が弱い	aarch64ビルドの整備が必要
適性	単独利用、検証・デモ、量子化モデルの切り替え検証	本番運用、社内マルチユーザー、API統合

検証フェーズは Ollama、運用フェーズは vLLM という段階的な構成が現実的です。

業務AI基盤としての位置づけ

適しているケース

部署・小規模チーム（5〜10名）の社内AIアシスタント
機密データを完全オフラインで処理したい用途
設計図面・契約書など機密性の高いドキュメントのRAG
複数モデルを切り替えながら評価する開発機

適していないケース

全社100名超の同時利用（複数台構成またはデータセンターGPUを推奨）
リアルタイム性が極めて高い対話用途（H100クラスが必要）
フルパラメータのファインチューニング（QLoRA程度であれば対応可能）

まとめ

ASUS Ascent GX10 は、「128GB統合メモリ × Blackwell」という構成により、小型筐体でローカルLLMの実用域を切り開いた製品です。273GB/s のメモリ帯域がボトルネックになりやすい点を前提として受け入れたうえで、MoEモデルを採用することで、多接続・高精度・低消費電力のバランスを取れることが、今回の検証における結論です。

検証用に1台導入し、社内PoCから着手する用途には、現時点で最もコストパフォーマンスに優れた選択肢の一つと言えます。

2026年5月1日

ハードウェア

204 文字

ASUS Ascent GX10（NVIDIA GB10 / DGX Spark）実機検証｜小型筐体で動かすローカルLLMの実用性

概要

結論として、Ascent GX10 は「ローカルでLLMを運用する実用デスクトップ」として、現時点で最もバランスに優れた選択肢の一つと評価しています。

ハードウェア概要

項目	仕様
GPU	NVIDIA GB10（Blackwell）
統合メモリ	128GB LPDDR5X（CPU/GPU共有）
メモリ帯域	約273 GB/s
FP4性能	1 PFLOPS級
OS	Ubuntu 24.04 LTS（aarch64）
形状	小型デスクトップ筐体

セットアップ上の注意点

aarch64 のバイナリ問題

GB10 の CUDA 要件

GB10 は CUDA 12.8 以降 を要求します。NVIDIA公式の Ubuntu 24.04 / aarch64 用ドライバでは nvidia-driver-580 系を導入します。

モデルの動作検証

70Bクラスのロード

推論速度の実測

モデル	量子化	速度（tok/s）	備考
Qwen2.5 7B	Q4	60〜70	軽快
Qwen2.5 32B	Q4	22〜28	実用域
Qwen2.5 72B	Q4	8〜12	単発は可、多接続は厳しい
Qwen3 30B-A3B（MoE）	Q4	50〜60	MoEの優位性が顕著

メモリ帯域 273GB/s というボトルネック

LLM推論は基本的に メモリ帯域律速 です。1トークンを生成するたびに、モデルの全パラメータをメモリから読み出す必要があります。

理論上限 (tok/s) ≈ メモリ帯域 (GB/s) / モデルサイズ (GB)

72B Q4（約40GB）の場合は以下のとおりです。

273 / 40 ≈ 6.8 tok/s（理論上限）

MoEモデルによる多接続の実現

密モデル vs MoE

項目	密モデル（72B）	MoE（30B-A3B）
総パラメータ	72B	30B
推論時アクティブ	72B	約3B
1トークンあたりの帯域消費	大	小
同時接続のさばきやすさ	△	◎
単発の品質	◎	○
メモリ占有	40GB	18GB

5〜10名の同時利用を想定する場合、密モデルの72Bよりも MoE 30Bクラスを採用したほうが、体感速度の面で大きく有利です。

実用構成例

ベースモデル：Qwen3 30B-A3B（MoE）
同時接続：5〜8セッション
vLLM の --enable-prefix-caching でプロンプトの共通部分をキャッシュ
ベクトル検索（pgvector / HNSW）はCPU側で並列化

この構成では、1セッションあたり 30〜40 tok/s を維持しつつ、5〜8名が同時に利用しても支障のない応答性能を確認できました。

Ollama と vLLM の使い分け

	Ollama	vLLM
長所	セットアップが容易、GGUF量子化が豊富	PagedAttentionによる多接続・高スループット
短所	マルチセッション性能が弱い	aarch64ビルドの整備が必要
適性	単独利用、検証・デモ、量子化モデルの切り替え検証	本番運用、社内マルチユーザー、API統合

検証フェーズは Ollama、運用フェーズは vLLM という段階的な構成が現実的です。

業務AI基盤としての位置づけ

適しているケース

部署・小規模チーム（5〜10名）の社内AIアシスタント
機密データを完全オフラインで処理したい用途
設計図面・契約書など機密性の高いドキュメントのRAG
複数モデルを切り替えながら評価する開発機

適していないケース

全社100名超の同時利用（複数台構成またはデータセンターGPUを推奨）
リアルタイム性が極めて高い対話用途（H100クラスが必要）
フルパラメータのファインチューニング（QLoRA程度であれば対応可能）

まとめ

検証用に1台導入し、社内PoCから着手する用途には、現時点で最もコストパフォーマンスに優れた選択肢の一つと言えます。

ASUS Ascent GX10（NVIDIA GB10 / DGX Spark）実機検証｜小型筐体で動かすローカルLLMの実用性

概要

ハードウェア概要

セットアップ上の注意点

aarch64 のバイナリ問題

GB10 の CUDA 要件

モデルの動作検証

70Bクラスのロード

推論速度の実測

メモリ帯域 273GB/s というボトルネック

MoEモデルによる多接続の実現

密モデル vs MoE

実用構成例

Ollama と vLLM の使い分け

業務AI基盤としての位置づけ

適しているケース

適していないケース

まとめ

社内データを、ネットワーク不要で
“使えるAI”に。

ニュースリリース

ASUS Ascent GX10（NVIDIA GB10 / DGX Spark）実機検証｜小型筐体で動かすローカルLLMの実用性

概要

ハードウェア概要

セットアップ上の注意点

aarch64 のバイナリ問題

GB10 の CUDA 要件

モデルの動作検証

70Bクラスのロード

推論速度の実測

メモリ帯域 273GB/s というボトルネック

MoEモデルによる多接続の実現

密モデル vs MoE

実用構成例

Ollama と vLLM の使い分け

業務AI基盤としての位置づけ

適しているケース

適していないケース

まとめ

社内データを、ネットワーク不要で
“使えるAI”に。

ニュースリリース

ASUS Ascent GX10（NVIDIA GB10 / DGX Spark）実機検証｜小型筐体で動かすローカルLLMの実用性

概要

ハードウェア概要

セットアップ上の注意点

aarch64 のバイナリ問題

GB10 の CUDA 要件

モデルの動作検証

70Bクラスのロード

推論速度の実測

メモリ帯域 273GB/s というボトルネック

MoEモデルによる多接続の実現

密モデル vs MoE

実用構成例

Ollama と vLLM の使い分け

業務AI基盤としての位置づけ

適しているケース

適していないケース

まとめ

社内データを、ネットワーク不要で“使えるAI”に。

ニュースリリース

ASUS Ascent GX10（NVIDIA GB10 / DGX Spark）実機検証｜小型筐体で動かすローカルLLMの実用性

概要

ハードウェア概要

セットアップ上の注意点

aarch64 のバイナリ問題

GB10 の CUDA 要件

モデルの動作検証

70Bクラスのロード

推論速度の実測

メモリ帯域 273GB/s というボトルネック

MoEモデルによる多接続の実現

密モデル vs MoE

実用構成例

Ollama と vLLM の使い分け

業務AI基盤としての位置づけ

適しているケース

適していないケース

まとめ

社内データを、ネットワーク不要で“使えるAI”に。

ニュースリリース

社内データを、ネットワーク不要で
“使えるAI”に。

社内データを、ネットワーク不要で
“使えるAI”に。