2025年8月5日
ハードウェア
Ollama実行環境のハードウェア比較と選定指針|VRAM容量・コスト効率・実測スループット
ローカルLLM実行基盤Ollamaを快適に運用するためのハードウェア構成を、VRAM容量を軸に予算別・用途別で整理します。GPU/CPU/メモリの要件、実測スループット、クラウドGPUとのコスト比較を通じ、企業の環境選定を支援する選定指針を提供します。

概要
ローカルLLMの実行基盤として広く採用されている Ollama を快適に運用するには、どのようなハードウェアを用意すべきか。DigitalBaseでは社内AI基盤の構築支援にあたり、複数のGPU構成で動作検証を重ねてきました。本稿では、性能を左右する最大の要因である GPUのVRAM容量 を軸に、予算別・用途別の推奨構成と実測スループットを整理し、企業や開発チームが環境を選定する際の指針を提供します。
クラウド型LLM(ChatGPT、Claude、Geminiなど)が普及する一方で、機密情報を外部に送信せずAIを活用したいという要望から、ローカルLLMの導入を検討する企業は増えています。Ollamaは Llama、Qwen、Gemma、Phi など主要なオープンソースモデルを ollama run <model> のようなシンプルなコマンドで実行できるため、PoCから本番運用までの入り口として有力な選択肢です。
ハードウェア要件の基本:VRAM容量が動作可否を決める
OllamaでLLMを実行する際、最も重要な指標は GPUのVRAM容量 です。LLM推論はモデルの全パラメータをメモリ上に展開する必要があり、VRAMが不足するとモデルが起動できない、あるいは一部をCPU側にオフロードして極端に低速化します。
モデルサイズとVRAM要件の目安
| モデル規模 | 代表例 | 必要VRAM(推奨) | 主な用途 |
|---|---|---|---|
| 7B〜8B | Llama 3.1 8B、Qwen2.5 7B、Mistral 7B | 8GB以上 | チャット、文章生成、コード補完 |
| 13B〜14B | Qwen2.5 14B 等 | 12GB以上 | 高品質な文章生成、複雑な質問応答 |
| 30B〜34B | Qwen2.5 32B、CodeLlama 34B | 24GB以上 | プロ向けコード生成、高度な推論 |
| 70B級 | Llama 3.x 70B、Qwen2.5 72B | 40GB以上(4bit量子化でも24GB×2目安) | 最高品質の推論、研究開発 |
量子化技術(4bit / 8bit)を用いることで必要VRAMを大幅に削減できます。例えば70Bモデルを4bit量子化すれば24GBクラスのVRAMでも動作可能になります。ただし量子化に伴う精度低下が許容できるかは、用途ごとに評価が必要です。
予算別の推奨ハードウェア構成
価格は2026年6月時点の国内相場を目安としています。GPU市場は変動が大きいため、導入時には最新の実勢価格をご確認ください。
エントリー構成(予算10万〜15万円)
推奨GPU:NVIDIA RTX 4060 Ti 16GB
- VRAM:16GB
- 対応モデル:7B〜13Bを快適に動作
- 特長:コスト効率が高く、家庭用電源で運用可能
- 制約:30B以上のモデルには不向き
システム構成例
- CPU:Intel Core i5-13400 / AMD Ryzen 5 7600
- メモリ:32GB DDR4/DDR5
- ストレージ:SSD 1TB
- 電源:650W 80Plus Bronze以上
- 合計:約14万〜16万円
Llama 3.1 8B や Qwen2.5 7B を快適に動作させられ、個人利用やプロトタイピングには十分な構成です。
ミドルレンジ構成(予算20万〜30万円)
推奨GPU:NVIDIA RTX 4070 Ti / RTX 4070 SUPER(12GB)
- VRAM:12GB
- 対応モデル:13Bまで余裕を持って動作
- 特長:優れた電力効率と静音性
- 制約:30B以上のモデルには量子化が必須
システム構成例
- CPU:Intel Core i7-14700K / AMD Ryzen 7 7700X
- メモリ:64GB DDR5
- GPU:RTX 4070 Ti 12GB
- ストレージ:SSD 2TB
- 電源:850W 80Plus Gold
- 合計:約25万〜28万円
ビジネス用途でも実用的な性能を発揮し、複数モデルを切り替えながら運用できます。
ハイエンド構成(予算40万〜60万円)
推奨GPU:NVIDIA RTX 4090 24GB
- VRAM:24GB
- 対応モデル:34Bまで快適、70Bも量子化で動作
- 特長:コンシューマー帯では最上位クラスのVRAM容量と性能
- 制約:消費電力が大きい(約450W)、価格が高い
システム構成例
- CPU:Intel Core i9-14900K / AMD Ryzen 9 7950X
- メモリ:128GB DDR5
- GPU:RTX 4090 24GB
- ストレージ:SSD 4TB NVMe
- 電源:1000W 80Plus Platinum
- ケース:エアフロー重視
- 合計:約53万〜58万円
大規模モデルの評価や複数モデルの同時実行に対応できる、開発機として完成度の高い構成です。なお、後継となる RTX 5090(32GB)が選択肢に入る場合は、VRAM容量と価格の差を踏まえて比較検討することを推奨します。
エンタープライズ構成(予算100万円以上)
推奨GPU:NVIDIA A100 40GB/80GB または H100
- VRAM:40GB / 80GB
- 対応モデル:70B級の大規模モデルを快適に動作
- 特長:最高水準の性能、マルチGPU構成に最適
- 制約:高価で、データセンター相当の運用環境が望ましい
全社規模の本番運用や研究用途にはデータセンターグレードGPUが適します。初期投資が大きいため、後述するクラウドGPUとの併用も検討に値します。また、128GB統合メモリを備えた NVIDIA GB10 系の小型ワークステーション(DGX Spark系列など)も、省スペースで大規模モデルを扱う新たな選択肢として登場しています。
CPU動作は現実的か
OllamaはCPUのみでも動作しますが、GPUと比較して推論速度が大幅に低下します。検証では概ね以下の傾向が確認できました。
GPU(RTX 4060 Ti)での推論速度
- Llama 3 8B:約30〜50 tokens/秒
- Mistral 7B:約40〜60 tokens/秒
CPU(Core i7-14700K)での推論速度
- Llama 3 8B:約2〜5 tokens/秒
- Mistral 7B:約3〜6 tokens/秒
CPU動作はテスト目的や予算制約下の暫定手段としては有効ですが、リアルタイム性が求められるチャット用途など実用レベルでは、GPU環境が事実上必須です。
メモリ(RAM)とストレージの要件
メモリ(RAM)
- 最低:16GB(7Bモデル)
- 推奨:32GB以上(13B以上)
- 理想:64GB以上(複数モデルの同時実行、大規模データ処理)
Ollamaは主にVRAMを使用しますが、システム全体の安定性やモデルのロード速度には十分なRAMが寄与します。
ストレージ
- 最低:256GB SSD
- 推奨:1TB以上 NVMe SSD
- 理想:2TB以上(複数モデルを保存する場合)
LLMモデルは1つあたり数GB〜数十GBのサイズがあるため、複数モデルを検証する場合は余裕を持った容量を確保してください。
実測スループット比較
Ollamaで各モデルを動作させた際のスループットを以下に整理します(値は検証時の実測の目安です)。
Llama 3 8B
| GPU | スループット(tokens/秒) |
|---|---|
| RTX 4090 | 約60 |
| RTX 4070 Ti | 約45 |
| RTX 4060 Ti 16GB | 約35 |
| RTX 3060 12GB | 約28 |
| CPU(i7-14700K) | 約4 |
Mistral 7B
| GPU | スループット(tokens/秒) |
|---|---|
| RTX 4090 | 約65 |
| RTX 4070 Ti | 約50 |
| RTX 4060 Ti 16GB | 約40 |
| RTX 3060 12GB | 約32 |
CodeLlama 34B(4bit量子化)
| GPU | スループット(tokens/秒) |
|---|---|
| RTX 4090 | 約18 |
| RTX 4070 Ti | VRAM不足のため動作不可 |
| RTX 4060 Ti 16GB | VRAM不足のため動作不可 |
これらの結果から、用途に見合ったVRAM容量を備えたGPUを選定することが、動作可否とスループットの双方を決定づけることが分かります。
クラウドGPUとの比較と選定の考え方
ローカル環境の構築には初期投資が必要ですが、継続利用ではクラウドよりコストを抑えられる場合があります。
ローカル環境の利点
- 初期投資後のランニングコストは電気代が中心
- データをローカルに保持でき、プライバシーとセキュリティを確保しやすい
- インターネット接続なしで動作
- ファインチューニングやカスタマイズの自由度が高い
クラウドGPUの利点
- 初期投資が不要で従量課金
- 最新ハードウェアを即時利用可能
- スケーラビリティが高い
- メンテナンス負荷が低い
コスト比較例(1年間の運用)
ローカル環境(RTX 4060 Ti構成)
- 初期投資:15万円
- 電気代(1日8時間稼働、1kWh=30円):約2.6万円/年
- 合計:約17.6万円
クラウドGPU(AWS g5.xlarge相当)
- 時間単価:約150円/時間
- 1日8時間 × 365日:約43.8万円/年
1年以上の継続利用を前提とする場合、ローカル環境の方がコスト効率に優れる傾向があります。一方、短期プロジェクトやスパイク的な負荷にはクラウドが適しており、両者を組み合わせたハイブリッド運用が現実的な選択になるケースも少なくありません。
まとめ:用途と予算に応じた最適解
Ollamaを快適に運用するためのハードウェア選定は、用途と予算のバランスが要点です。
- 個人利用・学習(10万〜15万円):RTX 4060 Ti 16GB構成。7B〜13Bを快適に動作でき、コスト効率が高い。
- ビジネス用途・開発環境(20万〜30万円):RTX 4070 Ti以上。複数モデルの切り替えや長時間運用に適する。
- プロ・研究開発(40万円以上):RTX 4090以上。大規模モデルの実験や複雑なタスクに対応。
- エンタープライズ(100万円以上またはクラウド):A100/H100などのデータセンターGPU、あるいはクラウドGPUを用途に応じて選定。
ローカルLLM環境は、プライバシー・コスト・カスタマイズ性の面で明確な利点があります。VRAM容量を起点に用途と予算を整理することで、クラウドに過度に依存しない柔軟なAI活用基盤を構築できます。
