2025年8月5日

ハードウェア

388 文字

Ollama実行環境のハードウェア比較と選定指針｜VRAM容量・コスト効率・実測スループット

ローカルLLM実行基盤Ollamaを快適に運用するためのハードウェア構成を、VRAM容量を軸に予算別・用途別で整理します。GPU/CPU/メモリの要件、実測スループット、クラウドGPUとのコスト比較を通じ、企業の環境選定を支援する選定指針を提供します。

概要

ローカルLLMの実行基盤として広く採用されている Ollama を快適に運用するには、どのようなハードウェアを用意すべきか。DigitalBaseでは社内AI基盤の構築支援にあたり、複数のGPU構成で動作検証を重ねてきました。本稿では、性能を左右する最大の要因である GPUのVRAM容量 を軸に、予算別・用途別の推奨構成と実測スループットを整理し、企業や開発チームが環境を選定する際の指針を提供します。

クラウド型LLM（ChatGPT、Claude、Geminiなど）が普及する一方で、機密情報を外部に送信せずAIを活用したいという要望から、ローカルLLMの導入を検討する企業は増えています。Ollamaは Llama、Qwen、Gemma、Phi など主要なオープンソースモデルを ollama run <model> のようなシンプルなコマンドで実行できるため、PoCから本番運用までの入り口として有力な選択肢です。

ハードウェア要件の基本：VRAM容量が動作可否を決める

OllamaでLLMを実行する際、最も重要な指標は GPUのVRAM容量 です。LLM推論はモデルの全パラメータをメモリ上に展開する必要があり、VRAMが不足するとモデルが起動できない、あるいは一部をCPU側にオフロードして極端に低速化します。

モデルサイズとVRAM要件の目安

モデル規模	代表例	必要VRAM（推奨）	主な用途
7B〜8B	Llama 3.1 8B、Qwen2.5 7B、Mistral 7B	8GB以上	チャット、文章生成、コード補完
13B〜14B	Qwen2.5 14B 等	12GB以上	高品質な文章生成、複雑な質問応答
30B〜34B	Qwen2.5 32B、CodeLlama 34B	24GB以上	プロ向けコード生成、高度な推論
70B級	Llama 3.x 70B、Qwen2.5 72B	40GB以上（4bit量子化でも24GB×2目安）	最高品質の推論、研究開発

量子化技術（4bit / 8bit）を用いることで必要VRAMを大幅に削減できます。例えば70Bモデルを4bit量子化すれば24GBクラスのVRAMでも動作可能になります。ただし量子化に伴う精度低下が許容できるかは、用途ごとに評価が必要です。

予算別の推奨ハードウェア構成

価格は2026年6月時点の国内相場を目安としています。GPU市場は変動が大きいため、導入時には最新の実勢価格をご確認ください。

エントリー構成（予算10万〜15万円）

推奨GPU：NVIDIA RTX 4060 Ti 16GB

VRAM：16GB
対応モデル：7B〜13Bを快適に動作
特長：コスト効率が高く、家庭用電源で運用可能
制約：30B以上のモデルには不向き

システム構成例

CPU：Intel Core i5-13400 / AMD Ryzen 5 7600
メモリ：32GB DDR4/DDR5
ストレージ：SSD 1TB
電源：650W 80Plus Bronze以上
合計：約14万〜16万円

Llama 3.1 8B や Qwen2.5 7B を快適に動作させられ、個人利用やプロトタイピングには十分な構成です。

ミドルレンジ構成（予算20万〜30万円）

推奨GPU：NVIDIA RTX 4070 Ti / RTX 4070 SUPER（12GB）

VRAM：12GB
対応モデル：13Bまで余裕を持って動作
特長：優れた電力効率と静音性
制約：30B以上のモデルには量子化が必須

システム構成例

CPU：Intel Core i7-14700K / AMD Ryzen 7 7700X
メモリ：64GB DDR5
GPU：RTX 4070 Ti 12GB
ストレージ：SSD 2TB
電源：850W 80Plus Gold
合計：約25万〜28万円

ビジネス用途でも実用的な性能を発揮し、複数モデルを切り替えながら運用できます。

ハイエンド構成（予算40万〜60万円）

推奨GPU：NVIDIA RTX 4090 24GB

VRAM：24GB
対応モデル：34Bまで快適、70Bも量子化で動作
特長：コンシューマー帯では最上位クラスのVRAM容量と性能
制約：消費電力が大きい（約450W）、価格が高い

システム構成例

CPU：Intel Core i9-14900K / AMD Ryzen 9 7950X
メモリ：128GB DDR5
GPU：RTX 4090 24GB
ストレージ：SSD 4TB NVMe
電源：1000W 80Plus Platinum
ケース：エアフロー重視
合計：約53万〜58万円

大規模モデルの評価や複数モデルの同時実行に対応できる、開発機として完成度の高い構成です。なお、後継となる RTX 5090（32GB）が選択肢に入る場合は、VRAM容量と価格の差を踏まえて比較検討することを推奨します。

エンタープライズ構成（予算100万円以上）

推奨GPU：NVIDIA A100 40GB/80GB または H100

VRAM：40GB / 80GB
対応モデル：70B級の大規模モデルを快適に動作
特長：最高水準の性能、マルチGPU構成に最適
制約：高価で、データセンター相当の運用環境が望ましい

全社規模の本番運用や研究用途にはデータセンターグレードGPUが適します。初期投資が大きいため、後述するクラウドGPUとの併用も検討に値します。また、128GB統合メモリを備えた NVIDIA GB10 系の小型ワークステーション（DGX Spark系列など）も、省スペースで大規模モデルを扱う新たな選択肢として登場しています。

CPU動作は現実的か

OllamaはCPUのみでも動作しますが、GPUと比較して推論速度が大幅に低下します。検証では概ね以下の傾向が確認できました。

GPU（RTX 4060 Ti）での推論速度

Llama 3 8B：約30〜50 tokens/秒
Mistral 7B：約40〜60 tokens/秒

CPU（Core i7-14700K）での推論速度

Llama 3 8B：約2〜5 tokens/秒
Mistral 7B：約3〜6 tokens/秒

CPU動作はテスト目的や予算制約下の暫定手段としては有効ですが、リアルタイム性が求められるチャット用途など実用レベルでは、GPU環境が事実上必須です。

メモリ（RAM）とストレージの要件

メモリ（RAM）

最低：16GB（7Bモデル）
推奨：32GB以上（13B以上）
理想：64GB以上（複数モデルの同時実行、大規模データ処理）

Ollamaは主にVRAMを使用しますが、システム全体の安定性やモデルのロード速度には十分なRAMが寄与します。

ストレージ

最低：256GB SSD
推奨：1TB以上 NVMe SSD
理想：2TB以上（複数モデルを保存する場合）

LLMモデルは1つあたり数GB〜数十GBのサイズがあるため、複数モデルを検証する場合は余裕を持った容量を確保してください。

実測スループット比較

Ollamaで各モデルを動作させた際のスループットを以下に整理します（値は検証時の実測の目安です）。

Llama 3 8B

GPU	スループット（tokens/秒）
RTX 4090	約60
RTX 4070 Ti	約45
RTX 4060 Ti 16GB	約35
RTX 3060 12GB	約28
CPU（i7-14700K）	約4

Mistral 7B

GPU	スループット（tokens/秒）
RTX 4090	約65
RTX 4070 Ti	約50
RTX 4060 Ti 16GB	約40
RTX 3060 12GB	約32

CodeLlama 34B（4bit量子化）

GPU	スループット（tokens/秒）
RTX 4090	約18
RTX 4070 Ti	VRAM不足のため動作不可
RTX 4060 Ti 16GB	VRAM不足のため動作不可

これらの結果から、用途に見合ったVRAM容量を備えたGPUを選定することが、動作可否とスループットの双方を決定づけることが分かります。

クラウドGPUとの比較と選定の考え方

ローカル環境の構築には初期投資が必要ですが、継続利用ではクラウドよりコストを抑えられる場合があります。

ローカル環境の利点

初期投資後のランニングコストは電気代が中心
データをローカルに保持でき、プライバシーとセキュリティを確保しやすい
インターネット接続なしで動作
ファインチューニングやカスタマイズの自由度が高い

クラウドGPUの利点

初期投資が不要で従量課金
最新ハードウェアを即時利用可能
スケーラビリティが高い
メンテナンス負荷が低い

コスト比較例（1年間の運用）

ローカル環境（RTX 4060 Ti構成）

初期投資：15万円
電気代（1日8時間稼働、1kWh=30円）：約2.6万円/年
合計：約17.6万円

クラウドGPU（AWS g5.xlarge相当）

時間単価：約150円/時間
1日8時間 × 365日：約43.8万円/年

1年以上の継続利用を前提とする場合、ローカル環境の方がコスト効率に優れる傾向があります。一方、短期プロジェクトやスパイク的な負荷にはクラウドが適しており、両者を組み合わせたハイブリッド運用が現実的な選択になるケースも少なくありません。

まとめ：用途と予算に応じた最適解

Ollamaを快適に運用するためのハードウェア選定は、用途と予算のバランスが要点です。

個人利用・学習（10万〜15万円）：RTX 4060 Ti 16GB構成。7B〜13Bを快適に動作でき、コスト効率が高い。
ビジネス用途・開発環境（20万〜30万円）：RTX 4070 Ti以上。複数モデルの切り替えや長時間運用に適する。
プロ・研究開発（40万円以上）：RTX 4090以上。大規模モデルの実験や複雑なタスクに対応。
エンタープライズ（100万円以上またはクラウド）：A100/H100などのデータセンターGPU、あるいはクラウドGPUを用途に応じて選定。

ローカルLLM環境は、プライバシー・コスト・カスタマイズ性の面で明確な利点があります。VRAM容量を起点に用途と予算を整理することで、クラウドに過度に依存しない柔軟なAI活用基盤を構築できます。

2025年8月5日

ハードウェア

388 文字

Ollama実行環境のハードウェア比較と選定指針｜VRAM容量・コスト効率・実測スループット

概要

ハードウェア要件の基本：VRAM容量が動作可否を決める

モデルサイズとVRAM要件の目安

モデル規模	代表例	必要VRAM（推奨）	主な用途
7B〜8B	Llama 3.1 8B、Qwen2.5 7B、Mistral 7B	8GB以上	チャット、文章生成、コード補完
13B〜14B	Qwen2.5 14B 等	12GB以上	高品質な文章生成、複雑な質問応答
30B〜34B	Qwen2.5 32B、CodeLlama 34B	24GB以上	プロ向けコード生成、高度な推論
70B級	Llama 3.x 70B、Qwen2.5 72B	40GB以上（4bit量子化でも24GB×2目安）	最高品質の推論、研究開発

予算別の推奨ハードウェア構成

価格は2026年6月時点の国内相場を目安としています。GPU市場は変動が大きいため、導入時には最新の実勢価格をご確認ください。

エントリー構成（予算10万〜15万円）

推奨GPU：NVIDIA RTX 4060 Ti 16GB

VRAM：16GB
対応モデル：7B〜13Bを快適に動作
特長：コスト効率が高く、家庭用電源で運用可能
制約：30B以上のモデルには不向き

システム構成例

CPU：Intel Core i5-13400 / AMD Ryzen 5 7600
メモリ：32GB DDR4/DDR5
ストレージ：SSD 1TB
電源：650W 80Plus Bronze以上
合計：約14万〜16万円

Llama 3.1 8B や Qwen2.5 7B を快適に動作させられ、個人利用やプロトタイピングには十分な構成です。

ミドルレンジ構成（予算20万〜30万円）

推奨GPU：NVIDIA RTX 4070 Ti / RTX 4070 SUPER（12GB）

VRAM：12GB
対応モデル：13Bまで余裕を持って動作
特長：優れた電力効率と静音性
制約：30B以上のモデルには量子化が必須

システム構成例

CPU：Intel Core i7-14700K / AMD Ryzen 7 7700X
メモリ：64GB DDR5
GPU：RTX 4070 Ti 12GB
ストレージ：SSD 2TB
電源：850W 80Plus Gold
合計：約25万〜28万円

ビジネス用途でも実用的な性能を発揮し、複数モデルを切り替えながら運用できます。

ハイエンド構成（予算40万〜60万円）

推奨GPU：NVIDIA RTX 4090 24GB

VRAM：24GB
対応モデル：34Bまで快適、70Bも量子化で動作
特長：コンシューマー帯では最上位クラスのVRAM容量と性能
制約：消費電力が大きい（約450W）、価格が高い

システム構成例

CPU：Intel Core i9-14900K / AMD Ryzen 9 7950X
メモリ：128GB DDR5
GPU：RTX 4090 24GB
ストレージ：SSD 4TB NVMe
電源：1000W 80Plus Platinum
ケース：エアフロー重視
合計：約53万〜58万円

エンタープライズ構成（予算100万円以上）

推奨GPU：NVIDIA A100 40GB/80GB または H100

VRAM：40GB / 80GB
対応モデル：70B級の大規模モデルを快適に動作
特長：最高水準の性能、マルチGPU構成に最適
制約：高価で、データセンター相当の運用環境が望ましい

CPU動作は現実的か

OllamaはCPUのみでも動作しますが、GPUと比較して推論速度が大幅に低下します。検証では概ね以下の傾向が確認できました。

GPU（RTX 4060 Ti）での推論速度

Llama 3 8B：約30〜50 tokens/秒
Mistral 7B：約40〜60 tokens/秒

CPU（Core i7-14700K）での推論速度

Llama 3 8B：約2〜5 tokens/秒
Mistral 7B：約3〜6 tokens/秒

メモリ（RAM）とストレージの要件

メモリ（RAM）

最低：16GB（7Bモデル）
推奨：32GB以上（13B以上）
理想：64GB以上（複数モデルの同時実行、大規模データ処理）

Ollamaは主にVRAMを使用しますが、システム全体の安定性やモデルのロード速度には十分なRAMが寄与します。

ストレージ

最低：256GB SSD
推奨：1TB以上 NVMe SSD
理想：2TB以上（複数モデルを保存する場合）

LLMモデルは1つあたり数GB〜数十GBのサイズがあるため、複数モデルを検証する場合は余裕を持った容量を確保してください。

実測スループット比較

Ollamaで各モデルを動作させた際のスループットを以下に整理します（値は検証時の実測の目安です）。

Llama 3 8B

GPU	スループット（tokens/秒）
RTX 4090	約60
RTX 4070 Ti	約45
RTX 4060 Ti 16GB	約35
RTX 3060 12GB	約28
CPU（i7-14700K）	約4

Mistral 7B

GPU	スループット（tokens/秒）
RTX 4090	約65
RTX 4070 Ti	約50
RTX 4060 Ti 16GB	約40
RTX 3060 12GB	約32

CodeLlama 34B（4bit量子化）

GPU	スループット（tokens/秒）
RTX 4090	約18
RTX 4070 Ti	VRAM不足のため動作不可
RTX 4060 Ti 16GB	VRAM不足のため動作不可

これらの結果から、用途に見合ったVRAM容量を備えたGPUを選定することが、動作可否とスループットの双方を決定づけることが分かります。

クラウドGPUとの比較と選定の考え方

ローカル環境の構築には初期投資が必要ですが、継続利用ではクラウドよりコストを抑えられる場合があります。

ローカル環境の利点

初期投資後のランニングコストは電気代が中心
データをローカルに保持でき、プライバシーとセキュリティを確保しやすい
インターネット接続なしで動作
ファインチューニングやカスタマイズの自由度が高い

クラウドGPUの利点

初期投資が不要で従量課金
最新ハードウェアを即時利用可能
スケーラビリティが高い
メンテナンス負荷が低い

コスト比較例（1年間の運用）

ローカル環境（RTX 4060 Ti構成）

初期投資：15万円
電気代（1日8時間稼働、1kWh=30円）：約2.6万円/年
合計：約17.6万円

クラウドGPU（AWS g5.xlarge相当）

時間単価：約150円/時間
1日8時間 × 365日：約43.8万円/年

まとめ：用途と予算に応じた最適解

Ollamaを快適に運用するためのハードウェア選定は、用途と予算のバランスが要点です。

個人利用・学習（10万〜15万円）：RTX 4060 Ti 16GB構成。7B〜13Bを快適に動作でき、コスト効率が高い。
ビジネス用途・開発環境（20万〜30万円）：RTX 4070 Ti以上。複数モデルの切り替えや長時間運用に適する。
プロ・研究開発（40万円以上）：RTX 4090以上。大規模モデルの実験や複雑なタスクに対応。
エンタープライズ（100万円以上またはクラウド）：A100/H100などのデータセンターGPU、あるいはクラウドGPUを用途に応じて選定。

Ollama実行環境のハードウェア比較と選定指針｜VRAM容量・コスト効率・実測スループット

概要

ハードウェア要件の基本：VRAM容量が動作可否を決める

モデルサイズとVRAM要件の目安

予算別の推奨ハードウェア構成

エントリー構成（予算10万〜15万円）

ミドルレンジ構成（予算20万〜30万円）

ハイエンド構成（予算40万〜60万円）

エンタープライズ構成（予算100万円以上）

CPU動作は現実的か

メモリ（RAM）とストレージの要件

実測スループット比較

クラウドGPUとの比較と選定の考え方

まとめ：用途と予算に応じた最適解

社内データを、ネットワーク不要で
“使えるAI”に。

ニュースリリース

Ollama実行環境のハードウェア比較と選定指針｜VRAM容量・コスト効率・実測スループット

概要

ハードウェア要件の基本：VRAM容量が動作可否を決める

モデルサイズとVRAM要件の目安

予算別の推奨ハードウェア構成

エントリー構成（予算10万〜15万円）

ミドルレンジ構成（予算20万〜30万円）

ハイエンド構成（予算40万〜60万円）

エンタープライズ構成（予算100万円以上）

CPU動作は現実的か

メモリ（RAM）とストレージの要件

実測スループット比較

クラウドGPUとの比較と選定の考え方

まとめ：用途と予算に応じた最適解

社内データを、ネットワーク不要で
“使えるAI”に。

ニュースリリース

Ollama実行環境のハードウェア比較と選定指針｜VRAM容量・コスト効率・実測スループット

概要

ハードウェア要件の基本：VRAM容量が動作可否を決める

モデルサイズとVRAM要件の目安

予算別の推奨ハードウェア構成

エントリー構成（予算10万〜15万円）

ミドルレンジ構成（予算20万〜30万円）

ハイエンド構成（予算40万〜60万円）

エンタープライズ構成（予算100万円以上）

CPU動作は現実的か

メモリ（RAM）とストレージの要件

実測スループット比較

クラウドGPUとの比較と選定の考え方

まとめ：用途と予算に応じた最適解

社内データを、ネットワーク不要で“使えるAI”に。

ニュースリリース

Ollama実行環境のハードウェア比較と選定指針｜VRAM容量・コスト効率・実測スループット

概要

ハードウェア要件の基本：VRAM容量が動作可否を決める

モデルサイズとVRAM要件の目安

予算別の推奨ハードウェア構成

エントリー構成（予算10万〜15万円）

ミドルレンジ構成（予算20万〜30万円）

ハイエンド構成（予算40万〜60万円）

エンタープライズ構成（予算100万円以上）

CPU動作は現実的か

メモリ（RAM）とストレージの要件

実測スループット比較

クラウドGPUとの比較と選定の考え方

まとめ：用途と予算に応じた最適解

社内データを、ネットワーク不要で“使えるAI”に。

ニュースリリース

社内データを、ネットワーク不要で
“使えるAI”に。

社内データを、ネットワーク不要で
“使えるAI”に。