2025年11月8日
ハードウェア
ローカルLLMのモデル規模別 GPU選定ガイド|VRAM・メモリ帯域から考える実用構成
ローカルLLMやRAGを社内で運用する際のGPU選定指針を、VRAM容量とメモリ帯域の観点から整理します。RTX 40/50シリーズの世代差、モデル規模別の推奨構成、量子化前提の実用ラインを、業務AI基盤の構築という視点で解説します。

はじめに:GPU選定が業務AI基盤の成否を左右する
ローカルLLMやRAGを社内に導入する際、最初に直面するのがGPU選定です。クラウドAPIと異なり、オンプレミスでLLMを動かす場合は「どのモデルを、どの規模で、何人が同時に使うのか」がそのままハードウェア要件に直結します。
GPUのスペック表には多数の数値が並びますが、業務AIの推論用途で本質的に効いてくる指標は限られています。本稿では、DigitalBaseがローカルLLM基盤を構築する際に用いている選定の考え方を、NVIDIA RTXシリーズを中心に整理します。スペックの読み方から、モデル規模別の推奨構成、量子化を前提とした実用ラインまでを扱います。
GPUスペックの読み方:AI推論で本当に効く指標
GPUは「並列演算に特化したプロセッサ」です。CPUが少数のコアで逐次処理を行うのに対し、GPUは数千〜数万の演算コアで同時に処理します。AI推論の性能を左右する主な指標は以下のとおりです。
| 指標 | 意味 | AI推論での重要度 |
|---|---|---|
| VRAM容量(GB) | モデルと中間データを保持するメモリ容量 | ★★★★★ |
| メモリ帯域(GB/s) | データ転送速度。推論スループットに直結 | ★★★★☆ |
| CUDAコア数 | 並列演算ユニットの数 | ★★★☆☆ |
| TDP(消費電力) | 高負荷時の電力目安。冷却・電源設計に関係 | ★★★☆☆ |
LLM推論において最も重要なのは VRAM容量 です。モデル全体(量子化済みの重み)と推論時のKVキャッシュがVRAMに載りきらなければ、そもそも実用的な速度では動きません。次に効いてくるのが メモリ帯域 です。LLMの推論は1トークン生成ごとにモデルパラメータをメモリから読み出すため、原理的にメモリ帯域律速になります。CUDAコア数は重要ですが、推論用途では上位2指標ほど支配的ではありません。
RTX世代の整理(2026年時点)
| 世代 | アーキテクチャ | 代表モデル | VRAM容量 | 主な用途 | 備考 |
|---|---|---|---|---|---|
| RTX 30xx | Ampere | 3060 / 3080 / 3090 | 8〜24GB | ゲーム・動画編集 | 旧世代だがコスパは依然高い |
| RTX 40xx | Ada Lovelace | 4060 / 4070 / 4090 | 8〜24GB | AI生成 / LLM / 4K編集 | 中古市場で入手性良好 |
| RTX 50xx | Blackwell | 5060 / 5070 / 5090 | 8〜32GB | AIローカル推論・運用 | GDDR7採用、電力効率改善 |
2026年6月時点では、RTX 50シリーズ(Blackwell世代)が現行主力となっています。GDDR7メモリの採用によりメモリ帯域が向上し、同一価格帯での推論スループットは前世代から着実に改善しています。
RTX 5060 Ti(16GB)は、業務用途のエントリー機として実用性の高い選択肢です。
- GDDR7メモリ搭載で、約448GB/sの帯域
- 消費電力は180W前後と、常時稼働させやすい
- 4bit量子化で8B〜20Bクラスのモデルまで実用ライン
一方、より大きなVRAMを必要とする場合は、RTX 5090(32GB)やデータセンター向けのA6000系、統合メモリを備えるNVIDIA GB10系が候補になります。
モデル規模別のGPU選定指針
LLM(テキスト生成)
LLMの推論では、量子化したモデルの重みとKVキャッシュがVRAMに収まることが前提条件です。社内アシスタントやRAGのバックエンドとして使う場合、VRAM 16GB以上を推奨します。
| モデル規模 | 量子化 | 推奨GPU | 備考 |
|---|---|---|---|
| 7B | 4bit | RTX 4060 / 5060 | 快適に動作 |
| 13B | 4bit | RTX 4070 / 5070 | 実用速度 |
| 20B | 4bit | RTX 4070 Ti / 5070 Ti | VRAMに余裕を持たせる |
| 34B〜70B | 4bit | RTX 4090 / 5090 / A6000以上 | 検証・小規模運用レベル |
7B〜13Bクラスであれば、RTX 4060 / 5060クラスでも十分に実用的な速度が得られます。20Bを超えるモデルを安定して扱うには、VRAM容量に余裕のある上位モデルが必要です。70Bクラスを単一GPUで動かす場合は、RTX 4090 / 5090(24〜32GB)でも量子化とオフロードの併用が前提となり、多人数の同時利用には向きません。
画像生成(Stable Diffusion / ComfyUI)
画像生成はノイズ除去処理が反復的に走るため、VRAM容量とメモリ帯域の両方が効きます。
- RTX 4060(8GB)でも動作するが、解像度や同時バッチを考えると16GB以上を推奨
- RTX 5060 Ti(16GB)はコストと速度のバランスが良好
ファインチューニング(LoRA / QLoRA)
フルパラメータの学習は大規模なVRAMを要求しますが、ローカル環境ではLoRA / QLoRAなどの軽量手法が現実的です。
- VRAM 24GB以上、またはCPUオフロード併用構成を推奨
- RTX 4090 / 5090(24〜32GB)やGB10 Blackwell系が安定
- QLoRA程度であれば、上記クラスで十分に実施可能
スペック値の目安と実用感
| 指標 | 目安 | 意味すること |
|---|---|---|
| CUDAコア数 | 4,000〜20,000 | 並列演算能力 |
| VRAM容量 | 8〜32GB | モデルの展開規模と入力長の上限 |
| メモリ帯域 | 300〜1,000GB/s | 推論スループットを左右する |
| TDP | 150〜450W | 電源・冷却に必要な設計余裕 |
| GPU長 | 260〜350mm | ケース選定時の物理制約 |
業務でLLM推論が「遅い」と感じる場合、その原因はCPUではなく、VRAM不足によるオフロードか、メモリ帯域による律速であることがほとんどです。GPU選定の段階でこの2点を外さないことが重要です。
ローカルAIサーバの推奨構成例(2026年時点)
| 用途 | GPU | メモリ | 電源 | コメント |
|---|---|---|---|---|
| 軽量LLM・画像生成 | RTX 4060 / 5060 | 32GB | 650W | 小規模でも安定稼働 |
| RAG / ファインチューニング対応 | RTX 4070 Ti / 5070 Ti | 64GB | 850W | 13B〜20Bクラスを実用速度で |
| 研究・開発 / 34B〜70B検証 | RTX 4090 / 5090 | 128GB | 1,000W | 本格的なAI開発環境 |
GPU側のVRAMに加え、システムメモリも余裕を持たせることで、モデルの切り替えやデータ前処理が安定します。
まとめ:規模と同時利用人数から逆算して選ぶ
RTXシリーズはいずれもLLM推論や画像生成に対応できますが、選定の起点となるのは「どの規模のモデルを、何人で同時に使うのか」です。
- 推論中心・ローカル運用:RTX 5060 Ti / 5070クラス
- ファインチューニングも視野に入れる:RTX 4090 / 5090クラス
- 省電力・常時稼働や大容量モデル:M4 Pro(Mac mini)やNVIDIA GB10系の統合メモリ構成
社内でローカルLLMやRAGの検証を始める段階であれば、RTX 5060 Ti(16GB)+システムメモリ32GBの構成が、コスト・性能・拡張性のバランスに優れた出発点になります。まずはこの規模でPoCを回し、利用人数やモデル規模の要件が固まった段階で上位構成へ移行する進め方が現実的です。
