digital base
プロダクトドキュメント最新情報コンテンツ会社概要

お問い合わせ

ご質問やご相談など、お気軽にお問い合わせください。

デジタルベース株式会社

〒106-0047
東京都港区南麻布3-20-1 5階

サイトメニュー

  • トップページ
  • プロダクト
  • ドキュメント
  • 最新ニュース
  • 記事一覧
  • 会社情報

お問い合わせ

  • info@digital-base.co.jp

NVIDIA Inception Program / Intel Partner ISV /
NTTPC Innovation LAB / IT導入補助金 対象

© デジタルベース株式会社. All rights reserved.
一覧に戻る

2026年5月1日

·

ハードウェア

·
204 文字

ASUS Ascent GX10(NVIDIA GB10 / DGX Spark)実機検証|小型筐体で動かすローカルLLMの実用性

NVIDIA GB10搭載のASUS Ascent GX10を実機検証。273GB/sのメモリ帯域がスループットに与える制約と、MoEモデルによる多接続・高精度の両立、OllamaとvLLMの使い分けを、業務AI基盤の観点から解説します。

ASUS Ascent GX10(NVIDIA GB10 / DGX Spark)実機検証|小型筐体で動かすローカルLLMの実用性

概要

NVIDIA GB10(Blackwellアーキテクチャ)を搭載する小型AIワークステーション「ASUS Ascent GX10」(DGX Spark系列)について、DigitalBaseで実機検証を実施しました。本稿では、70Bクラスのモデルを小型筐体で運用できる利点と、メモリ帯域 273GB/s がスループットに与える制約、そして MoE(Mixture of Experts)モデル によって多接続と高精度を両立する手法を、業務AI基盤の構築という観点から整理します。

結論として、Ascent GX10 は「ローカルでLLMを運用する実用デスクトップ」として、現時点で最もバランスに優れた選択肢の一つと評価しています。


ハードウェア概要

項目仕様
GPUNVIDIA GB10(Blackwell)
統合メモリ128GB LPDDR5X(CPU/GPU共有)
メモリ帯域約273 GB/s
FP4性能1 PFLOPS級
OSUbuntu 24.04 LTS(aarch64)
形状小型デスクトップ筐体

注目すべきは 128GB の統合メモリ と aarch64 アーキテクチャ です。GPUとCPUが同一メモリを共有するため、PCIe経由のVRAMコピーが発生せず、大規模モデルのロードや切り替えを高速に行えます。


セットアップ上の注意点

aarch64 のバイナリ問題

公開されているDocker imageの多くは linux/amd64 のみの提供です。CUDA系のツールでも --platform=linux/arm64 ビルドが用意されていないものは、ソースからの自前ビルドが必要になります。

GB10 の CUDA 要件

GB10 は CUDA 12.8 以降 を要求します。NVIDIA公式の Ubuntu 24.04 / aarch64 用ドライバでは nvidia-driver-580 系を導入します。


モデルの動作検証

70Bクラスのロード

70Bクラスの量子化モデル(Q4_K_M, 約40GB)を Ollama でロードしたところ、ロード自体は1〜2分で完了しました。統合メモリの恩恵により、モデル切り替え(72B → 32B → 7B)が PCIe 経由のコピーと比べて大幅に高速です。

推論速度の実測

モデル量子化速度(tok/s)備考
Qwen2.5 7BQ460〜70軽快
Qwen2.5 32BQ422〜28実用域
Qwen2.5 72BQ48〜12単発は可、多接続は厳しい
Qwen3 30B-A3B(MoE)Q450〜60MoEの優位性が顕著

メモリ帯域 273GB/s というボトルネック

LLM推論は基本的に メモリ帯域律速 です。1トークンを生成するたびに、モデルの全パラメータをメモリから読み出す必要があります。

理論上限 (tok/s) ≈ メモリ帯域 (GB/s) / モデルサイズ (GB)

72B Q4(約40GB)の場合は以下のとおりです。

273 / 40 ≈ 6.8 tok/s(理論上限)

つまり、大規模な密モデルを多人数で同時利用する構成は現実的ではないという結論になります。参考までに、データセンター向けの H100 SXM は約 3,350GB/s であり、帯域は1桁上です。


MoEモデルによる多接続の実現

密モデル vs MoE

項目密モデル(72B)MoE(30B-A3B)
総パラメータ72B30B
推論時アクティブ72B約3B
1トークンあたりの帯域消費大小
同時接続のさばきやすさ△◎
単発の品質◎○
メモリ占有40GB18GB

5〜10名の同時利用を想定する場合、密モデルの72Bよりも MoE 30Bクラスを採用したほうが、体感速度の面で大きく有利です。

実用構成例

  • ベースモデル:Qwen3 30B-A3B(MoE)
  • 同時接続:5〜8セッション
  • vLLM の --enable-prefix-caching でプロンプトの共通部分をキャッシュ
  • ベクトル検索(pgvector / HNSW)はCPU側で並列化

この構成では、1セッションあたり 30〜40 tok/s を維持しつつ、5〜8名が同時に利用しても支障のない応答性能を確認できました。


Ollama と vLLM の使い分け

OllamavLLM
長所セットアップが容易、GGUF量子化が豊富PagedAttentionによる多接続・高スループット
短所マルチセッション性能が弱いaarch64ビルドの整備が必要
適性単独利用、検証・デモ、量子化モデルの切り替え検証本番運用、社内マルチユーザー、API統合

検証フェーズは Ollama、運用フェーズは vLLM という段階的な構成が現実的です。


業務AI基盤としての位置づけ

適しているケース

  • 部署・小規模チーム(5〜10名)の社内AIアシスタント
  • 機密データを完全オフラインで処理したい用途
  • 設計図面・契約書など機密性の高いドキュメントのRAG
  • 複数モデルを切り替えながら評価する開発機

適していないケース

  • 全社100名超の同時利用(複数台構成またはデータセンターGPUを推奨)
  • リアルタイム性が極めて高い対話用途(H100クラスが必要)
  • フルパラメータのファインチューニング(QLoRA程度であれば対応可能)

まとめ

ASUS Ascent GX10 は、「128GB統合メモリ × Blackwell」という構成により、小型筐体でローカルLLMの実用域を切り開いた製品です。273GB/s のメモリ帯域がボトルネックになりやすい点を前提として受け入れたうえで、MoEモデルを採用することで、多接続・高精度・低消費電力のバランスを取れることが、今回の検証における結論です。

検証用に1台導入し、社内PoCから着手する用途には、現時点で最もコストパフォーマンスに優れた選択肢の一つと言えます。

DigitalBase データ連携フロー
DigitalBase

社内データを、ネットワーク不要で
“使えるAI”に。

エンタープライズに必要なAI機能を1つに集約した、ライセンス型のオンプレミスLLM基盤。 機密データを外部に出さず、完全オフライン環境で運用できます。

  • ✓ 専用AIチャット / ドキュメントAgent(RAG)
  • ✓ 文字起こし・ベンチマーク測定
  • ✓ 管理者・共有・権限管理機能
無料で試す製品の詳細を見る

資料請求・導入のご相談は お問い合わせ から。

ニュースリリース

最新のお知らせやプレスリリースをご覧いただけます

お知らせ
「AI NATIVE EXPO 2026」(6月10日〜12日 @ 幕張メッセ) に出展いたします
Interop Tokyo 併設の総合展「AI NATIVE EXPO 2026」に出展いたします。社内データを自動連携・加工し、BI・AIエージェントへ繋ぐ一連のフローを展示します。
2026年6月8日
プレスリリースPR TIMES
台湾AIインフラ企業Spingence Technologyと社内データ連携AIプラットフォームを共同開発
4月15日〜17日開催「NexTech Week 2026【春】第10回 AI・人工知能 EXPO」に出展 ~社内データをAIに接続し、業務フローに組み込む企業向けAI基盤~
2026年4月6日
お知らせ
「AI Frontier 2026」にスポンサー出展
AI技術の最前線を発信するカンファレンス「AI Frontier 2026」にスポンサーとして出展いたします。
2026年3月4日
一覧に戻る