2025年8月14日
ハードウェア
ローカルLLMハードウェア選定ガイド|VRAM・メモリ帯域・コスト効率から考える構成設計
ローカルLLMを業務で運用するためのハードウェア選定を、VRAM容量・メモリ帯域・コスト効率の観点から体系的に整理します。モデル規模別の推奨構成、量子化によるVRAM削減、コンシューマー向けGPUとデータセンターGPUの使い分けまでを解説します。

はじめに
大規模言語モデル(LLM)の活用が広がるなかで、データを外部に出さずに運用できる「ローカルLLM」への関心が高まっています。ローカルLLMとは、クラウド上のサーバーではなく、ユーザー自身のPCや社内サーバーといった手元の環境で動作させるLLMを指します。この方式は、プライバシー保護、セキュリティ強化、オフライン環境での利用といった、クラウドLLMでは実現が難しいメリットを提供します。
一方で、ローカルLLMを快適かつ効率的に運用するには、適切なハードウェアの選定が不可欠です。本稿では、DigitalBaseがローカルLLM/RAG基盤の構築支援を通じて得た知見をもとに、ハードウェア選定の技術的基準、モデル規模別の構成例、コストパフォーマンスの考え方までを体系的に整理します。製造業をはじめとする社内データ連携を前提とした業務AI基盤の観点から、選定の指針を提供することを目的とします。
第1章 ローカルLLMの基礎とハードウェアの役割
1.1 ローカルLLMとは
大規模言語モデルは、その動作環境によってクラウドLLMとローカルLLMに大別されます。ChatGPTやGoogle GeminiのようなサービスはクラウドLLMに該当し、インターネット経由でサービス提供者の大規模サーバー上で動作します。これに対しローカルLLMは、モデル自体をユーザーの手元の環境にダウンロードし、そのデバイス上で直接実行する形態を指します。
両者の主な違いを以下に整理します。
| 比較項目 | クラウドLLM(例: ChatGPT, Gemini) | ローカルLLM(例: Llama, Qwen) |
|---|---|---|
| 動作場所 | インターネット上の外部サーバー | 手元のPC、社内サーバー |
| データ | 外部に送信される | 外部に送信されない |
| 導入の手軽さ | ◎ サインアップのみ | △ 環境構築の手間がある |
| ローカルPC負荷 | ほぼなし | 高い |
| セキュリティ | △ サービス提供者に依存 | ◎ 自社管理で完結 |
| ネット接続 | 必須 | 不要 |
ローカルLLMが注目される主な理由は、セキュリティとプライバシー保護の高さにあります。企業秘密や個人情報など機密性の高いデータを扱う場合、外部サーバーへデータを送信しないローカルLLMは情報漏洩のリスクを大幅に低減できます。また、インターネット接続が不要なため、オフライン環境やネットワークが不安定な現場でも利用できます。その反面、動作には高性能なハードウェアを要し、ローカル環境への負荷が高い点が特徴です。
1.2 LLMのパフォーマンスを決定する主要ハードウェア要素
ローカルLLMの性能は、土台となるハードウェアのスペックに大きく依存します。特に以下の要素が、推論速度や処理能力に直接的な影響を与えます。
- GPU(グラフィックスカード): LLMの計算処理の大部分を担う最も重要なコンポーネントです。なかでもVRAM(ビデオメモリ)容量は、扱えるモデルのサイズを左右します。VRAMが不足すると大規模モデルをロードできなかったり、処理速度が著しく低下したりします。また、メモリ帯域幅はGPUとVRAM間のデータ転送速度を示し、推論速度に大きく影響します。NVIDIA GPUではCUDAコア数やTensorコア数が多いほど並列計算能力が高まります。
- RAM(メインメモリ): システム全体のデータ処理を支えます。GPUのVRAMが不足した際にシステムRAMが代替として使用されることもありますが、その場合は処理速度が大幅に低下します。モデルサイズや同時実行タスク数に応じて十分な容量が求められます。
- ストレージ: LLMモデルファイルや推論に使うデータセットを保存します。NVMe SSDのような高速ストレージは、モデルのロード時間やデータの読み書き速度を大幅に短縮します。
- CPU(中央演算処理装置): 推論の主役はGPUですが、データの前処理・後処理、OSや他アプリの実行などシステム全体の管理を担います。多コア・多スレッドCPUはこれら補助的タスクを効率的に処理し、ボトルネックを防ぎます。
- 電源ユニットと冷却システム: 高性能なGPUやCPUは大量の電力を消費し、相応の発熱を伴います。安定動作のためには十分な容量の電源ユニットと、効率的な冷却システム(高性能空冷または水冷)が不可欠です。
これらの要素は互いに密接に関連しており、バランスの取れた構成がローカルLLMの最適なパフォーマンスを引き出す鍵となります。
第2章 ハードウェア選定の技術的基準と評価指標
ローカルLLMを効率的に運用するには、各コンポーネントの技術的特性を理解し、適切な評価指標に基づいて選定する必要があります。本章ではGPU、RAM、ストレージ、CPUの選定基準と評価指標を解説します。
2.1 GPU選定の深掘り
GPUはローカルLLMの性能を左右する最も重要な要素です。選定では以下の観点を検討します。
VRAM容量の重要性
VRAM容量は、一度にロードできるモデルサイズと、推論時に扱えるコンテキスト長に直接影響します。パラメータ数が増えるほど、より多くのVRAMが必要になります。たとえばLlama系の70Bモデルを16-bit精度でロードする場合、約140GB前後のVRAMが必要になります。しかし量子化(例: 8-bitや4-bit)を行うことで、必要なVRAM量を大幅に削減できます。これにより、限られたVRAMのGPUでも大規模モデルを動作させることが可能になります。
実際の運用では、モデルの重みだけでなく推論時のKVキャッシュもVRAMを消費します。Ollamaを使った70Bクラスの実装例では、モデルロードで約15GB、推論時にコンテキスト長に応じて40GBを超えるGPUメモリを消費するケースが報告されており、VRAM要件はモデルサイズだけで判断できない点に注意が必要です。
GPUメモリ帯域幅と推論速度の関係
LLMの推論は基本的にメモリ帯域律速です。1トークンを生成するたびに、アクティブなパラメータをメモリから読み出す必要があるため、帯域幅が広いほどスループットが向上します。理論上の生成速度は次の関係で概算できます。
理論上限 (tok/s) ≈ メモリ帯域 (GB/s) / 読み出すモデルサイズ (GB)
そのため、CUDAコア数だけでなくメモリ帯域幅をGPU選定の重要指標として扱う必要があります。大規模な密モデルを多人数で同時利用する構成は帯域がボトルネックになりやすく、後述するMoE(Mixture of Experts)モデルの採用が有効な選択肢になります。
CUDAコア数とTensorコア数の影響
NVIDIA GPUのCUDAコアは汎用的な並列計算を高速化し、LLMの計算処理の多くを担います。最新GPUに搭載されるTensorコアは行列演算などのAI処理を専用に高速化します。これらのコア数が多いほど並列計算能力が高まり、特にプロンプト処理(プリフィル)やバッチ推論で効果を発揮します。
消費電力と発熱への対策
高性能GPUは高い処理能力と引き換えに大量の電力を消費し、相応の熱を発生させます。たとえばNVIDIA RTX 4090クラスのハイエンドGPUは単体で数百ワットを消費します。安定動作とハードウェア寿命の確保には、十分な容量の電源ユニット(単体GPU構成で850W〜1200W以上を推奨)と効率的な冷却システムが不可欠です。冷却が不十分だと、熱によって性能が制限される「サーマルスロットリング」が発生し、期待した性能が得られなくなります。
2.2 メモリ(RAM)とストレージの最適化
システムRAMの役割と必要容量
システムRAMはOSやアプリケーション、そしてVRAMが不足する場合にモデルの一部を一時的に格納します。一般的な目安として、7Bモデルでは最低16GB、13Bモデルでは最低32GB、33Bモデル以上では64GB〜128GBのRAMが推奨されます。VRAMが不足するとシステムRAMがオフロード先として利用されますが、VRAMに比べてアクセス速度が格段に遅いため推論速度が著しく低下します。
DDR4 vs DDR5:速度がもたらす影響
DDR5はDDR4に比べて高いデータ転送速度と帯域幅を提供します。CPUとメモリ間のデータ転送が多い構成(特にCPUオフロードを併用する場合)では、DDR5を選択することでデータ転送のボトルネックを軽減できます。
NVMe SSDの優位性と容量計画
LLMモデルファイルや大規模データセットは数十GBから数百GBに及びます。これらを高速に読み書きするにはNVMe SSDが事実上必須です。SATA SSDやHDDと比較して読み書き速度が大幅に高く、モデルのロード時間を短縮します。容量はモデル数やデータセット規模に応じて1TB以上を推奨し、複数の大規模モデルを扱う場合やファインチューニングを行う場合は2TB以上が望ましいでしょう。
2.3 CPUの選定と補助的役割
LLMの主要な計算はGPUが担いますが、CPUもシステム全体の安定性と効率に寄与します。CPUは推論時のトークン化などの前処理・後処理、OSやアプリケーションの実行、ネットワーク通信の管理といった補助的役割を担います。GPUを使えない環境や非常に小規模なモデルではCPUのみで動作させることも可能ですが、推論速度はGPUと比べて大幅に低下します。
CPU選定では、AMD Ryzen 9やIntel Core i9シリーズのような8コア以上の構成が推奨されます。複数タスクを並行処理でき、GPUがLLMの計算に集中できる環境を整えられます。
2.4 LLMパフォーマンス評価指標
ローカルLLMの性能を客観的に評価するため、以下の指標が用いられます。
- スループット(Throughput): 単位時間あたりに処理できるトークン数またはリクエスト数。「1秒あたり100トークン」のように表現され、スケーラビリティと効率性を示します。
- レイテンシ(Latency): リクエストを受けてから応答を返すまでの時間。特に以下の2指標が重要です。
- Time to First Token(TTFT): 最初のトークンが生成されるまでの時間。ユーザーが応答性を体感する上で最も重要な指標です。
- Inter-Token Latency(ITL): 各トークン生成間の時間。応答の滑らかさを評価します。
- コスト効率(Cost Efficiency): 1000トークンあたりのコストやリクエストあたりのコストで評価します。自社でハードウェアを構築・運用する場合、GPUの購入費用と電気代が主要なコスト要因です。
- リソース利用率(Resource Utilization): GPU/CPU利用率、メモリ割り当て、キャッシュヒット率など、リソースがどれだけ効率的に使われているかを示します。
これらの指標を総合的に考慮することで、用途と予算に最適なハードウェアを選定できます。
第3章 用途別ハードウェア構成例とコストパフォーマンス分析
ハードウェア選定は、利用目的・予算・求めるパフォーマンスによって大きく変わります。本章ではモデル規模別の推奨構成と、コスト効率を重視した構成例を示します。なお、価格は市況により変動するため、以下の概算は2026年時点の目安としてご参照ください。
3.1 モデル規模別推奨構成
モデルサイズは必要なVRAM容量と処理能力に直結します。以下に推奨構成例と概算コストを示します。
小規模モデル(1B〜3B)向け
- 用途: テキスト生成、簡単な質問応答、コード補完など軽量なタスク。
- 推奨GPU: NVIDIA GeForce RTX 4060 クラス(VRAM 8GB以上)。
- RAM: 16GB以上。
- ストレージ: NVMe SSD 500GB〜1TB。
- 概算コスト: 約20万円。
中規模モデル(7B〜13B)向け
- 用途: 文章生成、要約、翻訳、プログラミング支援など実用的なタスク。
- 推奨GPU: NVIDIA GeForce RTX 4070 クラス(VRAM 12GB以上)。
- RAM: 32GB以上。
- ストレージ: NVMe SSD 1TB〜2TB。
- 概算コスト: 約50万円。
大規模モデル(30B〜70B)向け
- 用途: 高度な推論、専門分野での利用など、高性能なLLMを活用したい場合。
- 推奨GPU: NVIDIA GeForce RTX 4090(VRAM 24GB)または RTX 5090(VRAM 32GB)クラス。
- RAM: 64GB〜128GB以上。
- ストレージ: NVMe SSD 2TB以上。
- 概算コスト: 約100万円〜200万円。
超大規模モデル(70B以上)向け
- 用途: 大規模なデータ処理、複数LLMの同時運用、研究開発など。
- 推奨GPU: NVIDIA A100/H100(複数枚構成、VRAM 80GB以上)クラス。
- RAM: 128GB以上。
- ストレージ: NVMe SSD 4TB以上。
- 概算コスト: 200万円以上。
近年は、こうした大容量VRAMを要する用途に対し、128GB統合メモリを備えたGB10搭載のコンパクトワークステーション(DGX Spark系列)のような選択肢も登場しています。小型筐体で大規模モデルを扱える点が特徴ですが、メモリ帯域がスループットの制約になりやすいため、用途に応じた評価が必要です。
3.2 コスト効率を重視した構成例
予算が限られていても、工夫次第で大規模モデルをローカルで動作させられます。
複数のコンシューマー向けGPUによる大容量VRAMの確保
複数のコンシューマー向けGPUを組み合わせ、大容量VRAMを比較的低コストで構築するアプローチがあります。たとえば複数枚のミドルレンジGPUと中古のデータセンター向けGPUを併用し、合計のVRAM容量を確保することで、70Bモデルの量子化版(8-bit時に約70GB前後)を動作させる構成が可能です。
- 構成要素の例:
- マザーボード: 複数のPCI Expressスロットを持つもの。
- ライザーカード: 複数GPUを接続するためのPCIeライザーカード。
- グラフィックスカード: コンシューマー向けGPU複数枚(合計VRAMが要件を満たす構成)。
- RAM: 32GB以上。
- CPU: AVX/AVX2命令セット対応のもの。
- 電源ユニット: 複数台の電源を相互接続して総容量を確保。
- ストレージ: 2TB NVMeドライブ。
この種の構成はコスト効率に優れる一方、PCIe帯域やGPU間通信、冷却・電源の取り回しに専門的な配慮が必要です。本番運用を前提とする場合は、安定性とのバランスを慎重に評価してください。
ゲーミングPCの活用
既存のゲーミングPCをローカルLLM環境として活用するのもコスト効率の良い選択肢です。高性能なゲーミングPCは強力なGPUと十分なRAMを備えていることが多く、追加投資を抑えてLLMを動作させられます。
- 構成要素の例:
- CPU: AMD Ryzen 5/7 または Intel Core i5/i7 クラス。
- GPU: NVIDIA GeForce RTX 4070 Ti クラス(VRAM 16GB)。
- RAM: 32GB DDR5。
- ストレージ: NVMe SSD 1TB。
- 概算コスト: 20万円〜50万円程度。
7B〜13Bクラスのモデルであれば、この構成で快適に動作させられます。
3.3 コンシューマー向けGPU vs データセンター向けGPU
ハードウェア選定で最も議論されるのが、コンシューマー向けGPUとデータセンター向けGPUのどちらを選ぶかという点です。両者の特徴を整理します。
NVIDIA GeForce RTX 4090(コンシューマー向けGPU)
- 特徴:
- 24GBのVRAMを搭載し、量子化モデルであれば単体でも大規模モデルの推論に対応できます。
- 最新世代アーキテクチャによる高い計算性能。
- 推論ワークロードにおいて、購入コストあたりの性能(コスト効率)に優れます。
- 複数枚構成により、VRAM容量と処理性能を低コストでスケールさせられます。
NVIDIA A100/H100(データセンター向けGPU)
- 特徴:
- 40GB/80GBといった大容量VRAMを搭載し、大規模モデルのトレーニングやVRAMを大量に消費するワークロードに適しています。
- 24時間365日の連続稼働を想定した高い信頼性・耐久性。
- ECCメモリのサポートやデータセンター統合機能が充実。
- 高いメモリ帯域(H100 SXMで約3,350GB/s)により、多接続・高スループットの本番運用に適します。
選定のポイント
純粋なコスト効率の観点では、特にVRAM容量を複数枚構成で確保する場合、コンシューマー向けGPUが推論用途で有利になることが多く、個人や中小規模チームにとって魅力的な選択肢です。一方、エンタープライズ環境での安定性、長期サポート、多人数同時利用での高スループット、あるいは単一GPUでの最大性能が求められる場合は、A100/H100のようなデータセンター向けGPUが適しています。選定では、初期投資・運用コスト(電気代を含む)・必要VRAM・処理性能・安定性とサポート体制を総合的に判断することが重要です。
第4章 ローカルLLM環境の構築と運用
適切なハードウェアを選定したら、次は実際に動作させるソフトウェア環境の構築と効率的な運用です。
4.1 ソフトウェア環境の準備
- OSの選択: 多くのフレームワークやライブラリはLinux環境での動作が最適化されています。特にNVIDIA GPUを使う場合、CUDAサポートが充実したUbuntuなどのLinuxディストリビューションが推奨されます。WindowsやmacOSでも動作しますが、パフォーマンスや互換性で制約がある場合があります。
- GPUドライバーのインストール: GPUの性能を引き出すには最新かつ安定したドライバーが不可欠です。NVIDIA GPUの場合、公式の対応CUDA ToolkitとドライバーをインストールしてGPU推論の基盤を整えます。
- LLMフレームワーク/ライブラリの導入: 用途やモデルに応じて適切なものを選択します。
- llama.cpp: CPUでも動作可能で、GPUを利用することで高速な推論ができます。多様な量子化版(GGUF)をサポートし、VRAMが少ない環境でも大規模モデルを動かすのに適しています。
- Ollama: モデルのダウンロード・実行・管理を容易にするツールです。手軽に様々なLLMをローカルで動かせるため、検証フェーズやデモに向いています。
- vLLM: PagedAttentionによる効率的なKVキャッシュ管理で、多接続・高スループットを実現します。社内マルチユーザーやAPI統合を伴う本番運用に適しています。
- Hugging Face Transformers: 最も広く利用されるライブラリの一つで、膨大な事前学習済みモデルを公開しています。Python環境で柔軟にLLMを扱いたい場合に適しています。
検証フェーズはOllama、本番運用はvLLMという段階的な構成が現実的です。
4.2 効率的な運用とトラブルシューティング
- GPUメモリ使用量のモニタリング: 推論やファインチューニング中にVRAMが不足するとエラーや極端な速度低下が起きます。
nvidia-smiコマンドでVRAM使用量・GPU使用率・温度などをリアルタイムに確認し、ボトルネックを早期に検知します。 - 量子化によるVRAM削減: 大規模モデルを限られたVRAMで動かす最も効果的な手段の一つが量子化です。重みを低精度(16-bitから8-bit、4-bitなど)に変換することでVRAM使用量を大幅に削減できます。llama.cppなどは様々な量子化レベルをサポートし、品質とVRAM使用量のバランスを調整できます。
- 冷却と電源管理: 高負荷なワークロードはGPUやCPUに大きな負担をかけ、大量の熱を発生させます。ケース内のエアフローを確保し、高性能なCPUクーラーやケースファン、必要に応じて水冷システムを導入してください。安定した電力供給のため、十分な容量と品質の電源ユニットを使用することも重要です。
まとめ
ローカルLLMの普及は、機密データを社内で扱いながらAIを活用する新たな選択肢を広げています。本稿では、ハードウェア選定に焦点を当て、基礎知識から技術的基準、構成例、運用上の要点までを整理しました。
最適なハードウェア選定のチェックリストとして、以下を確認してください。
- 目的とモデル規模: どのモデルを、どの規模で、どの用途に使うかを明確にする。
- VRAM容量: 最も重要な要素。量子化の有無も含めてモデルのVRAM要件を満たすGPUを選ぶ。
- メモリ帯域: 多接続・高スループットを要する場合は帯域を重視し、必要に応じてMoEモデルの採用を検討する。
- RAM容量と速度: システム全体の安定性を支える十分なRAM(DDR5推奨)を確保する。
- ストレージ: モデルやデータセットの容量を考慮した高速なNVMe SSDを選ぶ。
- CPU: 多コアCPUでシステム全体の応答性を確保する。
- 電源と冷却: 安定稼働と長寿命化のため、十分な電源容量と効率的な冷却を確保する。
- コストパフォーマンス: 初期投資と運用コストを考慮し、コンシューマー向けGPUの活用も視野に入れる。
