ローカルLLM向けGPU接続インターフェース徹底比較一覧に戻るローカルLLM向けGPU接続インターフェース徹底比較
ローカルLLM時代において、GPUの選び方だけでなく「接続方式」も性能を左右する重要な要素です。最新の記事「ローカルLLM向けGPU接続インターフェース徹底比較」では、PCIe直挿しとThunderbolt eGPUの帯域・実測性能を徹底検証。Thunderboltは手軽さと拡張性に優れる一方、帯域制限により10〜50%の性能差が生じるケースもあります。7B〜13BクラスのLLM推論には実用的ですが、大規模モデルや生成AI開発にはPCIe直挿しのワークステーション構成が最適。開発者・研究者必見のハードウェア選定ガイドです。
PCIe直挿し vs Thunderbolt eGPU
はじめに
ローカルLLM環境を構築するとき、どのGPUを買うかと同じくらい重要なのが、
そのGPUを 「どうやってホストマシンに接続するか」 です。
- デスクトップなら:マザーボードの PCIeスロットに直挿し
- ノートPCやNUCなら:Thunderbolt/USB4経由のeGPU
という選択肢になりますが、その違いは「ちょっと帯域が違う」レベルではありません。
帯域・レイテンシ・実ベンチマークの差が、LLM推論のスループットやレイテンシにじわじわ効いてきます。
本記事では、公開されているベンチマークや技術資料を元に、
- PCIe直挿しとThunderbolt eGPUの帯域・レイテンシ
- 実ゲーム/GPGPUベンチでの性能低下の目安
- ローカルLLM/生成AI用途でどこまで妥協できるか
を整理します。
第1章 PCIeとThunderboltの基本スペック比較
1.1 帯域の理論値をざっくり把握する
まずは「線の太さ」の話から。
PCIe(デスクトップでの標準接続)
PCI Expressの帯域(片方向:x16)の理論値はおおよそ以下です:ウィキペディア
| 規格 | レーン数 | 理論帯域 (片方向) |
|---|
| PCIe 3.0 | x16 | 約 31.5 GB/s |
| PCIe 4.0 | x16 | 約 63.0 GB/s |
|
ご紹介
弊社では下記プロダクトを取り扱いしております。ご興味ありましたらご覧ください。
DigitalBaseエンタープライズLLM環境の構築
ニュースリリース
最新のお知らせやプレスリリースをご覧いただけます
最近のコンシューマGPU(RTX 40シリーズなど)は、
物理x16スロットでも「電気的にはx8」動作のことも多く、
- PCIe 4.0 x8 ≒ PCIe 3.0 x16 とほぼ同等(~32GB/sクラス)
Thunderbolt 3 / 4 / 5(eGPUでよく使うやつ)
Thunderboltは「1本のケーブルで PCIe + DisplayPort などをトンネリングする」仕様なので、
カタログ値の 40Gbps / 80Gbps がそのままPCIeに使えるわけではありません。
- Thunderbolt 3
- 公称 40Gbps(双方向)
- PCIeとしては最大 4レーンのPCIe 3.0 (32Gbps) をトンネリング可能
- 実際に使えるPCIeデータ帯域はオーバーヘッド込みで 約 21〜25Gbps 程度とされるウィキペディア
- Thunderbolt 4
- Thunderbolt 5
まとめると、「GPUに使える実効帯域」という観点ではだいたいこんなイメージです:
| 接続 | 実効PCIe帯域のイメージ |
|---|
| PCIe 4.0 x16 | ~63 GB/s |
| PCIe 4.0 x8 | ~32 GB/s |
| Thunderbolt 3/4 eGPU | PCIe 3.0 x4 相当 (~4 GB/s) |
| Thunderbolt 5 eGPU | PCIe 4.0 x4 相当だが、プロトコルオーバーヘッドあり |
つまり、Thunderbolt eGPUは「GPU側だけハイエンドでも、線は x4 世代」 という前提になります。
第2章 実ベンチから見る Thunderbolt eGPU の性能低下
「帯域が1/4なら性能も1/4?」というと、実はそう単純ではありません。
GPUの仕事の大半は VRAMの中だけで完結するので、
2.1 一般的なeGPUベンチの傾向
いくつかの公開ベンチ・検証レポートから、Thunderbolt eGPUの性能低下をざっくり拾うと:
-
RTX 3090 をデスクトップ直挿し vs Thunderbolt eGPU で比較したBlenderベンチ
→ eGPU側はデスクトップの 約78% のスコア(≒22%ダウン)Blender Artists Community
-
Mac + TB3 eGPU の各種ベンチまとめ
→ GPUがハイエンドになるほど、TB3側の性能ドロップが大きくなり、
おおよそ 20〜30%程度の低下 が多いeGPU.io
-
ゲーム用途の一般論(HPのeGPUガイド)
→ 「デスクトップPCIeと比べて 10〜20%の性能低下、内蔵ディスプレイを使うとそれ以上落ちる」HP® Store
また、内蔵ディスプレイ vs 外付けディスプレイ でも差があり、
2.2 極端なケース:帯域依存の高いワークロード
-
Stable Diffusion など、大量のテクスチャ/特徴マップを頻繁にCPU側とやりとりするようなワークロードでは、
「PCIe 4.0 x16 + RTX 4090」と比べて
Thunderbolt eGPUで50%近い性能低下を観測した事例もあります。Reddit
帯域依存の強いワークロードほど
Thunderbolt eGPU のペナルティが大きくなりやすい
第3章 ローカルLLM/生成AIでの影響をどう見るか
3.1 LLM推論のデータ流れの特徴
-
モデル重み(数GB〜数十GB)を 起動時に一度だけVRAMにロード
-
推論中は、トークナイズ済みの入力と中間状態(KVキャッシュ)を
ほぼVRAM内で更新・参照し続ける
-
CPU側とのやり取りは、「入力テキスト」と「出力トークン列」が中心で、量は比較的少ない
つまり、**帯域を一番使うのは「起動時のモデルロード」**であり、
推論ループに入ってしまえば、インターフェース帯域よりGPUの演算性能・VRAM帯域の方が支配的になるケースが多いです。
- モデルが 完全にVRAM内に収まる
- KVキャッシュなどもVRAM内で完結
- 毎トークンごとにCPUと巨大なテンソルをやりとりしない
という前提なら、Thunderbolt eGPUでも性能低下は 10〜20% 程度で済むことが多い、というのが実務上の感覚です(ゲームやBlenderベンチの結果からの類推)。
3.2 どんなときにThunderboltの帯域がボトルネックになるか
逆に、以下のようなケースでは帯域の影響が大きくなります:
-
VRAMに入りきらない大規模モデル
→ 重みの一部やKVキャッシュをCPUメモリ側に逃がしている場合、
毎トークンごとに Thunderbolt 越しの転送が発生し、スループットが大きく低下しうる。
-
マルチGPU/分散推論で、GPU間通信をホスト経由でやっている構成
→ GPU間のAllReduce的な通信が全て x4帯域に乗るので、
PCIe直挿しやNVLink構成に比べて明確にスケールしにくくなる。
-
大量の埋め込み計算+CPU側データベース
→ 1リクエストあたりのトークン数は少ないが、
画像やベクトルを行き来させる頻度が高い場合、TB側のI/Oが目立ってくる。
第4章 PCIe直挿し vs Thunderbolt eGPU:ローカルLLM視点のまとめ
ここまでの情報を、ローカルLLM/生成AI用途に絞って整理します。
4.1 性能インパクトのざっくり目安
前提:同じGPUを、PCIe直挿しとThunderbolt eGPUで使い比べた場合
| 用途・ワークロード | 性能低下の目安(eGPU vs PCIe直挿し) | コメント |
|---|
| 軽〜中量級 LLM推論(7B〜13B、VRAM内完結) | おおよそ 10〜20% ダウン | 体感は「ちょっと遅い」程度で済むことが多い |
| 大規模LLM(30B〜70B、VRAMギリギリ〜不足) | 20〜40% ダウンもあり | CPUメモリスワップが発生すると一気に悪化 |
| Stable Diffusionなど画像生成(高解像度・大バッチ) | 20〜50% ダウン | 転送量が多く、帯域差が顕著に効くReddit+1 |
| ゲーム・3Dレンダリング(外付けモニタ) | 10〜30% ダウン | GPU性能が支配的だが、高FPS域ほど差が出るHP® Store+1 |
| ゲーム(ノートPC内蔵ディスプレイ駆動) | 20〜40% ダウン | 描画結果がTB経由で戻るため、さらに不利eGPU.io |
4.2 接続方式ごとの「向き・不向き」
Thunderbolt eGPU がアリなケース
-
既に Thunderbolt 3/4/5対応ノートPCやNUCを持っている
-
扱うモデルが 7B〜13Bクラス中心 で、VRAM内に収まる
-
主用途が LLM推論・軽いLoRA学習・コード補完 など
-
「最高効率」よりも
・モバイル性/省スペース
・既存マシンの延命
・導入の手軽さ
を優先したい
PCIe直挿し(一体型ワークステーション)が必須に近いケース
- 30B〜70Bクラス以上のモデルを常用したい
- Stable Diffusionや動画生成など、帯域依存の強いワークロードがメイン
- マルチGPU構成でスケールさせたい(NVLinkやPCIeスイッチを活用する)
- サーバ用途で 24/7稼働させたい(Thunderboltはホットプラグ前提のコンシューマ寄り)
第5章 実際に構成を決めるときの指針
最後に、「自分がどっちを選ぶべきか」を判断するためのチェックリストです。
5.1 Thunderbolt eGPUを選んでよいかチェック
5.2 PCIe直挿しワークステーションを選ぶべきチェック
結論
一方で、ハイエンドローカルLLM環境を本気で作るつもりなら、
- 十分なVRAMを持つGPUを PCIe直挿し
- 可能なら マルチGPU+NVLink/高速PCIeスイッチ
- 大容量・高速NVMeと十分な電源/冷却
という、昔ながらの「ちゃんとしたワークステーション構成」が、今でも結局いちばん強い選択肢であることは変わりません。