2025年11月7日
ハードウェア
ローカルLLM向けGPU接続インターフェース比較|PCIe直挿しとThunderbolt eGPUの実効帯域と性能差
ローカルLLM環境ではGPUの選定だけでなく接続方式も実性能を左右します。本稿ではPCIe直挿しとThunderbolt eGPUの実効帯域と公開ベンチを整理し、推論ワークロード別の性能差と、業務AI基盤としての構成選定指針を示します。

概要
ローカルLLM環境を構築する際、「どのGPUを採用するか」と同等に重要でありながら見落とされがちなのが、そのGPUをホストマシンにどう接続するかという問題です。デスクトップであればマザーボードのPCIeスロットへの直挿し、ノートPCや小型筐体(NUCクラス)であればThunderbolt/USB4経由のeGPUという選択肢になりますが、両者の差は「わずかに帯域が異なる」という程度では収まりません。
帯域・レイテンシ・実ベンチマークの差は、LLM推論のスループットとレイテンシにじわじわと影響します。本稿では、DigitalBaseが公開ベンチマークおよび技術資料を整理した結果として、以下の観点を解説します。
- PCIe直挿しとThunderbolt eGPUの帯域・レイテンシ
- 実ゲーム/GPGPUベンチにおける性能低下の目安
- ローカルLLM/生成AI用途でどこまで妥協できるか、その判断基準
PCIeとThunderboltの基本スペック比較
帯域の理論値を把握する
まず「線の太さ」、すなわち物理帯域の理論値から整理します。
PCIe(デスクトップでの標準接続)
PCI Express(片方向・x16)の理論帯域はおおよそ以下のとおりです。
| 規格 | レーン数 | 理論帯域(片方向) |
|---|---|---|
| PCIe 3.0 | x16 | 約 31.5 GB/s |
| PCIe 4.0 | x16 | 約 63.0 GB/s |
| PCIe 5.0 | x16 | 約 126.0 GB/s |
近年のコンシューマGPU(RTX 40/50シリーズなど)は、物理的にはx16スロットでも電気的にはx8動作となる構成が少なくありません。その場合、**PCIe 4.0 x8 はおおむね PCIe 3.0 x16 と同等(約32GB/sクラス)**と捉えておくと見積もりに齟齬が生じにくくなります。
Thunderbolt 3 / 4 / 5(eGPUの主流接続)
Thunderboltは1本のケーブルでPCIeとDisplayPortなどをトンネリングする仕様であり、カタログ値の40Gbps/80Gbps/120GbpsがそのままPCIeデータ帯域として使えるわけではありません。GPU用途で押さえるべきポイントは以下です。
- Thunderbolt 3: 公称40Gbps(双方向)。PCIeとしては最大4レーンのPCIe 3.0(32Gbps)をトンネリング可能だが、実効PCIeデータ帯域はオーバーヘッド込みで約21〜25Gbps程度とされる。
- Thunderbolt 4: 同じく40Gbps。常にPCIe 3.0 x4の32Gbpsをデータに利用可能で、TB3のようなビデオ優先の固定予約がない。
- Thunderbolt 5: 最大120Gbps(ブーストモード)。ただしGPU用のPCIe帯域としては依然としてx4相当の世界にとどまり、デスクトップのPCIe x16には届かない。
GPUに供給できる実効帯域という観点では、概ね次のイメージになります。
| 接続 | 実効PCIe帯域のイメージ |
|---|---|
| PCIe 4.0 x16 | 約 63 GB/s |
| PCIe 4.0 x8 | 約 32 GB/s |
| Thunderbolt 3/4 eGPU | PCIe 3.0 x4 相当(約 4 GB/s) |
| Thunderbolt 5 eGPU | PCIe 4.0 x4 相当(ただしプロトコルオーバーヘッドあり) |
つまり、Thunderbolt eGPUはGPU本体がハイエンドであっても、接続帯域はx4世代にとどまるという前提で設計を考える必要があります。
実ベンチから見るThunderbolt eGPUの性能低下
「帯域が1/4なら性能も1/4になるのか」というと、実態はそれほど単純ではありません。GPUの処理の大半はVRAM内で完結するため、インターフェース帯域を常時フルに使い切るワークロードは限られるからです。
一般的なeGPUベンチの傾向
複数の公開ベンチ・検証レポートからThunderbolt eGPUの性能低下を整理すると、次の傾向が見えてきます。
- RTX 3090のデスクトップ直挿しとThunderbolt eGPUを比較したBlenderベンチでは、eGPU側がデスクトップの約78%(約22%ダウン)。
- Mac+TB3 eGPUの各種ベンチでは、GPUがハイエンドになるほどTB3側の性能ドロップが大きくなり、おおよそ20〜30%程度の低下が報告される。
- ゲーム用途の一般論(HPのeGPUガイド)では、デスクトップPCIe比で10〜20%の性能低下、内蔵ディスプレイ駆動ではそれ以上の低下とされる。
加えて、内蔵ディスプレイ駆動か外付けディスプレイ直結かでも差が出ます。Thunderbolt eGPUから外付けモニタへ直結する場合、描画結果を内蔵ディスプレイへ戻すパスが不要になり、最大30%以上パフォーマンスが向上するケースも報告されています。
帯域依存の高いワークロードでの極端なケース
Stable Diffusionのように、大量のテクスチャや特徴マップを頻繁にCPU側とやり取りするワークロードでは、「PCIe 4.0 x16 + RTX 4090」と比較してThunderbolt eGPUで50%近い性能低下を観測した事例もあります。
ここから、帯域依存が強いワークロードほどThunderbolt eGPUのペナルティが大きくなりやすいという方向性が読み取れます。
ローカルLLM/生成AIでの影響をどう評価するか
それでは本題のローカルLLMではどうか。ここはやや性質が異なります。
LLM推論のデータフローの特徴
多くのLLM推論は、おおむね次の流れで進みます。
- モデル重み(数GB〜数十GB)を起動時に一度だけVRAMにロードする。
- 推論中は、トークナイズ済みの入力と中間状態(KVキャッシュ)をほぼVRAM内で更新・参照し続ける。
- CPU側とのやり取りは入力テキストと出力トークン列が中心で、データ量は比較的少ない。
したがって帯域を最も消費するのは起動時のモデルロードであり、推論ループに入ってしまえば、インターフェース帯域よりもGPUの演算性能とVRAM帯域のほうが支配的になるケースが多くなります。
このため、ローカルLLMの推論に限れば、
- モデルが完全にVRAM内に収まる
- KVキャッシュもVRAM内で完結する
- 毎トークンごとにCPUと巨大なテンソルをやり取りしない
という前提が満たされる場合、Thunderbolt eGPUでも性能低下は10〜20%程度で済むことが多い、というのが実務上の評価です(ゲームやBlenderベンチの結果からの類推を含みます)。
Thunderboltの帯域がボトルネックになる条件
逆に、以下のケースでは帯域の影響が顕在化します。
- VRAMに収まりきらない大規模モデル: 重みの一部やKVキャッシュをCPUメモリ側へ退避している場合、毎トークンごとにThunderbolt越しの転送が発生し、スループットが大きく低下しうる。
- マルチGPU/分散推論でGPU間通信をホスト経由で行う構成: GPU間のAllReduce的な通信がすべてx4帯域に乗るため、PCIe直挿しやNVLink構成と比べて明確にスケールしにくくなる。
- 大量のEmbedding計算とCPU側データベースの連携: 1リクエストあたりのトークン数は少なくても、ベクトルやデータの往復頻度が高い場合、TB側のI/Oが顕在化する。
3点目はRAG基盤で特に注意すべき観点です。Embedding生成とベクトルDB(pgvector/HNSWなど)への問い合わせが密に連携する構成では、接続帯域がスループットの上限を規定する場面が出てきます。
PCIe直挿し vs Thunderbolt eGPU|ローカルLLM視点の整理
ここまでの情報を、ローカルLLM/生成AI用途に絞って整理します。
性能インパクトの目安
前提として、同一GPUをPCIe直挿しとThunderbolt eGPUで使い比べた場合の目安です。
| 用途・ワークロード | 性能低下の目安(eGPU vs PCIe直挿し) | コメント |
|---|---|---|
| 軽〜中量級LLM推論(7B〜13B、VRAM内完結) | おおよそ 10〜20% ダウン | 体感は「やや遅い」程度で済むことが多い |
| 大規模LLM(30B〜70B、VRAMギリギリ〜不足) | 20〜40% ダウンもあり | CPUメモリスワップが発生すると一気に悪化 |
| Stable Diffusionなど画像生成(高解像度・大バッチ) | 20〜50% ダウン | 転送量が多く、帯域差が顕著に効く |
| ゲーム・3Dレンダリング(外付けモニタ) | 10〜30% ダウン | GPU性能が支配的だが、高FPS域ほど差が出る |
| ゲーム(ノートPC内蔵ディスプレイ駆動) | 20〜40% ダウン | 描画結果がTB経由で戻るため、さらに不利 |
接続方式ごとの向き・不向き
Thunderbolt eGPUが適するケース
- すでにThunderbolt 3/4/5対応のノートPCやNUCを保有している
- 扱うモデルが7B〜13Bクラス中心で、VRAM内に収まる
- 主用途がLLM推論・軽量なLoRA学習・コード補完などである
- 最高効率よりも、モバイル性・省スペース・既存マシンの延命・導入の手軽さを優先したい
PCIe直挿し(一体型ワークステーション)が必須に近いケース
- 30B〜70Bクラス以上のモデルを常用したい
- Stable Diffusionや動画生成など、帯域依存の強いワークロードが主体である
- マルチGPU構成でスケールさせたい(NVLinkやPCIeスイッチを活用する)
- サーバ用途で24時間稼働させたい(Thunderboltはホットプラグ前提のコンシューマ寄り設計)
構成を決めるときのチェックリスト
最後に、どちらを選ぶべきかを判断するためのチェックリストを示します。
Thunderbolt eGPUを選んでよいか
- 手元のPCがThunderbolt 3/4/5に対応している
- 主に使うモデルは7B〜13Bクラス(Q4〜Q6量子化でVRAMに収まる想定)
- 多少の性能低下(PCIe直挿し比で1〜2割遅い)を許容できる
- ノートPCやNUC中心で運用したい/省スペースを重視する
- eGPUエンクロージャのコスト(4〜9万円前後)を許容できる
PCIe直挿しワークステーションを選ぶべきか
- 30B以上のモデルや、複数モデルを同時稼働させたい
- 将来的にマルチGPUへ拡張する可能性がある
- LLMだけでなく、画像生成・動画生成・レンダリングもヘビーに使う
- 10〜20%の差でも、積み重なると無視できない規模のワークロードである
- シャーシ・電源・冷却を含めたワークステーション構築に抵抗がない
まとめ
帯域面だけを見ると、Thunderbolt eGPUはPCIe 4.0 x16に比べて1/3〜1/4程度の帯域しか使えません。しかし実ベンチでは、ゲームやBlenderでおおむね10〜30%程度、帯域依存の強いStable Diffusionなどでは最大50%程度の性能低下という結果が多く報告されています。
ローカルLLM推論用途に限れば、モデルがVRAMに収まり、CPUメモリとの往復が少ない限り、Thunderbolt eGPUでも「やや遅い程度」で実用範囲に収まることが多い、というのが本稿の評価です。一方、ハイエンドなローカルLLM環境を本格的に構築するのであれば、十分なVRAMを備えたGPUのPCIe直挿し、可能ならマルチGPU+NVLinkや高速PCIeスイッチ、大容量・高速NVMe、十分な電源と冷却という、堅実なワークステーション構成が依然として最も確実な選択肢です。
