2026年2月13日

RAG

417 文字

RAG実装におけるベクトルインデックス：HNSWとIVFFlatの比較と活用ガイド

RAG（Retrieval-Augmented Generation）を本番環境で運用する際、ベクトル検索のパフォーマンスを左右するのがインデックスの選択です。現在、主要なベクトルインデックスとして

RAGの概要

RAGとは

RAG（Retrieval-Augmented Generation）は、LLM（大規模言語モデル）に外部知識を与えて回答精度を向上させるアーキテクチャです。LLM単体では学習データに含まれない情報には回答できませんが、RAGを使うことで社内ドキュメントやFAQなど独自のデータを検索・参照した上で回答を生成できます。

RAGの処理フロー

RAGは大きく2つのフェーズに分かれます。

インデックス構築フェーズ（事前処理）

ドキュメントをチャンク（断片）に分割する
各チャンクをEmbeddingモデルでベクトル化する
ベクトルをデータベースに格納し、インデックスを構築する

検索・生成フェーズ（リアルタイム）

ユーザーの質問をベクトル化する
インデックスを使って類似度の高いチャンクを検索する
取得したチャンクをコンテキストとしてLLMに渡し、回答を生成する

この「2. インデックスを使って類似度の高いチャンクを検索する」部分で、HNSWやIVFFlatといったインデックスの選択がパフォーマンスに直結します。

なぜインデックスが必要なのか

ベクトル検索の最も単純な方法は**総当たり検索（Flat Search）**です。全ベクトルと順番にコサイン類似度を計算し、最も近いものを返します。正確ですが、データ量が増えると計算量がO(N)で増大し、実用的な速度を維持できなくなります。

近似最近傍探索（ANN: Approximate Nearest Neighbor）インデックスを使うことで、多少の精度を犠牲にしつつ、桁違いの速度で検索が可能になります。

ベクトル検索の主要パラメータ

インデックスの比較に入る前に、ベクトル検索で共通して理解すべきパラメータを整理します。

距離関数

ベクトル間の「近さ」を測る関数です。RAGではコサイン類似度が最も一般的です。

距離関数	概要	主な用途
コサイン類似度	ベクトルの方向の近さ（-1〜1）	テキスト埋め込み全般
L2距離（ユークリッド）	ベクトル間の直線距離

モデル	次元数	特徴
text-embedding-ada-002 (OpenAI)	1536	英語に強い、API依存
text-embedding-3-small (OpenAI)	1536	ada-002の後継
multilingual-e5-large-instruct	1024	多言語対応、オープンソース
nomic-embed-text	768	軽量、ローカル実行可能
embeddinggemma (Google)	768	日本語対応、ローカル実行可能

モデル	推奨閾値の目安	スコア分布の傾向
embeddinggemma	0.20〜0.30	スコアが低めに分布
nomic-embed-text	0.40〜0.50	中程度に分布
multilingual-e5-large	0.70〜0.85	スコアが高めに集中

パラメータ	デフォルト値	説明
`m`	16	各ノードの最大接続数。大きいほど精度向上、メモリ増
`ef_construction`	64	インデックス構築時の探索幅。大きいほど構築が遅く精度向上
`ef_search`	40	検索時の探索幅。大きいほど検索が遅く精度向上

パラメータ	推奨値	説明
`lists`	行数に依存（後述）	クラスタ数。データ量に応じて設定が必要
`probes`	1（デフォルト）	検索時に走査するクラスタ数。精度に直結

項目	HNSW	IVFFlat
アルゴリズム	グラフベース	クラスタリングベース
検索精度（Recall）	非常に高い（95%以上）	中〜高（probes依存）
検索速度	高速	高速（probes次第）
インデックス構築速度	遅い	速い
メモリ使用量	多い（グラフ構造を保持）	少ない
空テーブルへの構築	可能	非推奨（データが必要）
データ追加時	即時反映、リバランス不要	クラスタ偏りが発生しうる
パラメータ調整	デフォルトで高精度	lists/probesの適切な設定が必要
フィルタ付き検索	iterative_scan対応（v0.8.0+）	probes増で対応
適したデータ規模	数千〜数百万件	数十万〜数千万件

RAG実装におけるベクトルインデックス：HNSWとIVFFlatの比較と活用ガイド

RAGの概要

RAGとは

RAGの処理フロー

なぜインデックスが必要なのか

ベクトル検索の主要パラメータ

距離関数

ご紹介

ニュースリリース

Embeddingモデルと次元数

similarity_threshold（類似度閾値）

top_k

HNSWとIVFFlatの比較

HNSWとは

IVFFlatとは

比較表

HNSWを選ぶべきケース

IVFFlatを選ぶべきケース

ライブラリ・データベースごとの搭載状況

主要ライブラリの比較

LangChainとの組み合わせ

pgvectorを選ぶメリット

実装例：pgvectorでのHNSWインデックス構築

テーブルとインデックスの作成

HNSWパラメータのカスタマイズ（必要な場合のみ）

まとめ

インデックス選択のフローチャート

実装時のポイント

参考リンク

ライブラリ / DB	HNSW	IVFFlat	Flat（総当たり）	特徴
pgvector	v0.5.0〜	v0.1.0〜	常に利用可	PostgreSQL拡張、SQLと統合
FAISS	IndexHNSWFlat	IndexIVFFlat	IndexFlatL2	Meta開発、GPU対応
Chroma	デフォルト	-	-	hnswlib使用、手軽
Pinecone	独自実装	-	-	マネージドサービス
Weaviate	デフォルト	-	-	GraphQLインターフェース
Milvus	対応	対応	対応	多種インデックス対応
Qdrant	デフォルト	-	-	Rust製、高速