2025年10月30日
ハードウェア
RTX 4060 / RTX 4070 比較と選定指針|ローカルLLM推論に適したGPUの考え方
RTX 4060とRTX 4070をローカルLLM推論の観点で比較。VRAM容量とメモリ帯域がモデルサイズの上限と推論速度を決める仕組みを整理し、8B〜20Bクラスを動かす際の現実的な選定指針とミニPC構成の注意点を解説します。

概要
ローカルでLLMやRAGを運用する際、GPUの選定は推論速度と安定性に直結します。とりわけ VRAM容量 は「そもそも動かせるモデルサイズ」を、メモリ帯域 は「トークン生成速度」を規定するため、用途に合わない選定は後戻りのコストが大きくなります。
本稿では、コンシューマ向けGPUとして導入しやすい RTX 4060 と RTX 4070 を、AI・LLM推論用途に絞って比較し、DigitalBaseが社内AI基盤の検証機を構成する際の選定指針を整理します。
主要スペック比較
| 項目 | RTX 4060 | RTX 4070 |
|---|---|---|
| VRAM | 8GB GDDR6 | 12GB GDDR6X |
| メモリ帯域 | 約272 GB/s | 約504 GB/s |
| CUDAコア | 約3,072 | 約5,888 |
| 消費電力(TGP) | 約115W | 約200W |
| 実売価格(2026年6月時点) | 約5〜6万円 | 約9〜11万円 |
LLM推論の観点で重要なのは、CUDAコア数だけでなく VRAM容量とメモリ帯域 です。RTX 4070はVRAMが12GBへ増えるだけでなく、GDDR6Xの採用により帯域も約1.8倍となり、同一モデルでの生成速度で有利になります。
AI・LLM用途での性能差
LLM推論は基本的に メモリ帯域律速 です。1トークンを生成するたびにモデルのパラメータをメモリから読み出すため、VRAMに収まるモデルサイズと帯域が実効速度を決定します。
- 8Bクラスまで(Llama 3.1 8B、Qwen2.5 7B など):Q4量子化(約5GB前後)であればRTX 4060の8GBにも収まり、20〜35 tok/s 程度の実用的な速度が得られます。
- 13B〜20Bクラス:VRAM容量の差が顕著になります。RTX 4060の8GBでは収まりきらず、一部レイヤーのCPUオフロードが発生して推論速度が大きく低下する(数分の一になる)ケースがあります。12GBのRTX 4070であれば、Q4量子化で14Bクラスまでは比較的安定して動作します。
- コンテキスト長の影響:VRAMはモデル本体だけでなくKVキャッシュにも消費されます。長文RAGや会話履歴を扱う場合、8GBでは実効的に扱えるコンテキストが制限される点に注意が必要です。
なお、上記は単一セッションでの目安です。複数ユーザーの同時利用を前提とする場合は、コンシューマGPUの帯域・VRAMでは早期に限界が来るため、別途サーバー級の構成を検討してください。
ミニPC環境での採用例と注意点
省スペースな社内検証機として、ミニPCにGPUを組み込む構成も選択肢になります。ただし、形態によって拡張性が大きく異なります。
- ノート用GPU搭載型(VRAM固定):一部のミニPCはノート版のRTX 4060(8GB固定)を採用しています。小型・省電力である一方、VRAM拡張やGPU交換ができないため、将来より大きなモデルへ移行する余地が乏しくなります。
- デスクトップGPU搭載型:RTX 4070クラスを搭載する場合、約200WのTGPに見合う電源容量と冷却能力の確保が前提になります。小型筐体では熱だまりによるサーマルスロットリングが生じやすく、連続推論時の速度低下に注意が必要です。
検証段階で「どこまでのモデルサイズを扱うか」を決めておくと、ミニPCの形態選定での手戻りを避けられます。
選定指針
| 想定用途 | 推奨GPU | 理由 |
|---|---|---|
| RAG・社内チャットボット(8Bクラス) | RTX 4060 | コスト・消費電力に優れ、軽量モデルなら十分な速度 |
| 13B〜14Bクラスの推論 | RTX 4070 | VRAM容量と帯域に余裕があり、安定動作しやすい |
| 画像生成(SDXL等) | RTX 4070 | VRAM 12GB以上が実用上の前提となりやすい |
| 将来の拡張・モデル更新を見込む | RTX 4070 | VRAMと帯域の余力が移行コストを抑える |
RTX 4060は、軽量LLMやRAG用途に絞った検証・小規模運用に適した選択肢です。一方、扱うモデルサイズの拡大や画像生成まで視野に入れる場合は、VRAMと帯域に余裕のあるRTX 4070が無難です。
まとめ
RTX 4060とRTX 4070の差は、単なる性能の上下ではなく、VRAM容量が「動かせるモデルの上限」を、メモリ帯域が「生成速度」を決める という構造に起因します。8BクラスのローカルアシスタントやRAGに用途を限定するならRTX 4060でコストを抑えられ、14Bクラスや画像生成、将来の拡張を見込むならRTX 4070が堅実です。
