2025年12月21日

RAG

655 文字

RAG実装における次元の設定方法 | 768d vs 1536d vs 3072d

RAG（Retrieval-Augmented Generation）システムを構築する際、Embeddingの次元数は、検索精度、ストレージコスト、検索速度に直接影響する重要なパラメータです。本記事では、768次元、1536次元、3072次元の実装上の違いと、ビジネス要件に応じた最適な選択方法を解説します。

Embedding次元数の基礎知識

次元数とは

Embeddingの次元数は、テキストを表現するベクトルの要素数です。次元数が高いほど、より細かな意味的ニュアンスを表現できる一方、ストレージや計算コストが増加します。

例えば、768次元のベクトルは以下のような形式になります：

python

[0.023, -0.156, 0.891, ..., 0.234] # 768個の浮動小数点数

主要なEmbeddingモデルと次元数

モデル	次元数	用途
all-MiniLM-L6-v2	384	軽量・高速
nomic-embed-text	768	バランス型
text-embedding-3-small	1536 (可変)	OpenAI標準
text-embedding-3-large	3072 (可変)	最高精度
mxbai-embed-large	1024	ローカル高精度

OpenAIのtext-embedding-3-small/largeは、dimensionsパラメータで次元数を動的に調整可能な点が特徴です。

次元数による違いの詳細比較

1. ストレージコスト

次元数はベクトルDBのストレージサイズに直接影響します。

1万チャンクを格納した場合の容量（pgvectorの場合）：

python

# 計算式: チャンク数 × 次元数 × 4バイト(float32)
768次元:  10,000 × 768  × 4 = 30.72 MB
1536次元: 10,000 × 1,536 × 4 = 61.44 MB  
3072次元: 10,000 × 3,072 × 4 = 122.88 MB

100万チャンクの場合：

768次元: 約3 GB
1536次元: 約6 GB
3072次元: 約12 GB

これに加えて、インデックス（HNSW、IVFFlat等）の容量も必要です。一般的にインデックスはベクトルデータの20-40%程度を追加で消費します。

2. 検索速度

次元数が増えると、類似度計算（コサイン類似度、内積等）のコストが線形に増加します。

実測パフォーマンス（10万ベクトルから類似トップ10を検索）：

次元数	平均検索時間	インデックス作成時間
768d	12ms	45秒
1536d	23ms	92秒
3072d	48ms	185秒

※環境: PostgreSQL 15 + pgvector、HNSW index (m=16, ef_construction=64)

検索速度は次元数にほぼ比例しますが、インデックスの最適化により影響を軽減できます。

3. メモリ使用量

ベクトル検索時、候補ベクトルをメモリに展開するため、次元数が高いとメモリ消費が増加します。

10万ベクトル検索時のメモリ使用量：

768次元: 約300 MB
1536次元: 約600 MB
3072次元: 約1.2 GB

大規模システムでは、この違いがサーバースペック選定に影響します。

4. 検索精度

次元数と精度の関係は線形ではありません。多くの場合、1536次元で十分な精度が得られ、3072次元への増加は限定的な改善にとどまります。

MTEB（Massive Text Embedding Benchmark）スコア例：

text-embedding-3-small (512d): 61.2
text-embedding-3-small (1536d): 62.3
text-embedding-3-large (1024d): 62.8
text-embedding-3-large (3072d): 64.6

512次元→1536次元で約1.1ポイント、1536次元→3072次元で約2.3ポイントの改善です。

OpenAI Embeddingsでの次元削減実装

OpenAIのtext-embedding-3-small/largeでは、dimensionsパラメータで次元数を指定できます。

基本的な実装

python

from openai import OpenAI

client = OpenAI()

# 1536次元（デフォルト）
response = client.embeddings.create(
    model="text-embedding-3-small",
    input="RAGシステムの実装方法"
)

# 768次元に削減
response = client.embeddings.create(
    model="text-embedding-3-small",
    input="RAGシステムの実装方法",
    dimensions=768
)

# 3072次元（text-embedding-3-large）
response = client.embeddings.create(
    model="text-embedding-3-large",
    input="RAGシステムの実装方法",
    dimensions=3072
)

バッチ処理での実装

python

# 複数チャンクを効率的に処理
chunks = ["チャンク1", "チャンク2", ..., "チャンク100"]

response = client.embeddings.create(
    model="text-embedding-3-small",
    input=chunks,
    dimensions=768  # コスト削減のため768次元を指定
)

embeddings = [data.embedding for data in response.data]

次元削減のメカニズム

OpenAIのモデルは、高次元ベクトルから重要な次元を選択するのではなく、Matryoshka Representation Learningという手法を使用しています。これにより、削減後も情報の損失を最小化できます。

重要な点：

後から次元を増やすことはできない
異なる次元数のベクトルは比較できない
一度決めた次元数は、そのコレクション全体で統一する必要がある

コスト・パフォーマンス分析

OpenAI APIのコスト比較

text-embedding-3-smallは次元数に関わらず同一料金（$0.02/1M tokens）ですが、ストレージコストと検索速度が変わります。

10万チャンクのRAGシステム（月間100万クエリ想定）：

次元数	Embedding費用	ストレージ費用/月	検索コスト/月	合計/月
512d	$20	$5	$30	$55
768d	$20	$8	$40	$68
1536d	$20	$15	$80	$115

※ストレージ: AWS RDS PostgreSQL、検索: Lambda実行コスト概算

Ollamaのリソースコスト

ローカルLLMの場合、次元数による処理時間の違いがサーバーコストに影響します。

100万チャンク処理時間（M1 Max、GPU使用）：

768d (nomic-embed-text): 約14時間
1024d (mxbai-embed-large): 約18時間
1536d (カスタムモデル): 約25時間

GPU時間単価を考慮すると、初期Embedding生成で次元数が大きな影響を与えます。

ベクトルDB別の実装例

pgvectorでの実装

python

import psycopg2
from pgvector.psycopg2 import register_vector

conn = psycopg2.connect(database="vectordb")
register_vector(conn)

# テーブル作成（次元数を指定）
cur = conn.cursor()
cur.execute("""
    CREATE TABLE embeddings_768 (
        id SERIAL PRIMARY KEY,
        content TEXT,
        embedding vector(768),  -- 次元数を明示
        metadata JSONB
    )
""")

# HNSWインデックス作成
cur.execute("""
    CREATE INDEX ON embeddings_768 
    USING hnsw (embedding vector_cosine_ops)
    WITH (m = 16, ef_construction = 64)
""")

# データ挿入
cur.execute(
    "INSERT INTO embeddings_768 (content, embedding) VALUES (%s, %s)",
    ("テキスト", embedding_768d)
)

# 検索
cur.execute("""
    SELECT content, 1 - (embedding <=> %s) as similarity
    FROM embeddings_768
    ORDER BY embedding <=> %s
    LIMIT 10
""", (query_embedding, query_embedding))

ChromaDBでの実装

python

import chromadb

client = chromadb.Client()

# コレクション作成（次元数は自動検出）
collection = client.create_collection(
    name="docs_768d",
    metadata={"dimension": 768}  # 管理用
)

# データ追加
collection.add(
    embeddings=embeddings_768d,  # [[...], [...], ...]
    documents=documents,
    metadatas=metadatas,
    ids=ids
)

# 検索
results = collection.query(
    query_embeddings=[query_embedding_768d],
    n_results=10
)

Pineconeでの実装

python

import pinecone

pinecone.init(api_key="YOUR_API_KEY")

# インデックス作成（次元数を指定）
pinecone.create_index(
    name="rag-768d",
    dimension=768,  # 必須パラメータ
    metric="cosine"
)

index = pinecone.Index("rag-768d")

# Upsert
index.upsert(
    vectors=[
        ("id1", embedding_768d, {"text": "内容"}),
        ("id2", embedding_768d, {"text": "内容"})
    ]
)

# 検索
results = index.query(
    vector=query_embedding_768d,
    top_k=10,
    include_metadata=True
)

選択基準とユースケース別推奨

768次元を選ぶべきケース

推奨シナリオ：

大規模データ（100万チャンク以上）を扱う
検索速度を最優先（リアルタイム応答）
ストレージコストを抑えたい
モバイル・エッジデバイスでの動作

具体例：

ECサイトの商品検索（数百万商品）
リアルタイムチャットボット
組み込みデバイスでのローカルRAG

実装時の注意：

python

# OpenAI API使用時
response = client.embeddings.create(
    model="text-embedding-3-small",
    input=texts,
    dimensions=768  # 明示的に指定
)

# Ollama使用時
ollama.embeddings(
    model='nomic-embed-text',  # 768次元モデル
    prompt=text
)

1536次元を選ぶべきケース

推奨シナリオ：

中規模データ（10万〜100万チャンク）
精度とコストのバランス重視
一般的なビジネスアプリケーション

具体例：

社内ナレッジベース検索
カスタマーサポートFAQ
技術ドキュメント検索

デフォルト推奨： OpenAIのtext-embedding-3-smallはデフォルトで1536次元であり、多くのユースケースで最適なバランスです。

3072次元を選ぶべきケース

推奨シナリオ：

最高精度が必要（数パーセントの改善が重要）
データ量が比較的小規模（10万チャンク未満）
コストよりも品質を優先

具体例：

法律文書の精密検索
学術論文のセマンティック検索
高度な推薦システム

実装時の注意：

python

# text-embedding-3-largeを使用
response = client.embeddings.create(
    model="text-embedding-3-large",  # largeモデル
    input=texts,
    dimensions=3072  # フル次元
)

実践的なアーキテクチャ設計

ハイブリッドアプローチ

用途に応じて次元数を使い分ける戦略も有効です：

python

class HybridRAGSystem:
    def __init__(self):
        # 第1段階: 768次元で高速フィルタリング
        self.fast_index = ChromaDB(dimension=768)
        # 第2段階: 1536次元で精密ランキング
        self.precise_index = ChromaDB(dimension=1536)
    
    def search(self, query, top_k=10):
        # Step 1: 768次元で候補を1000件に絞る
        fast_results = self.fast_index.query(
            query_768d, 
            n_results=1000
        )
        
        # Step 2: 上位候補を1536次元で再ランキング
        precise_results = self.precise_index.query(
            query_1536d,
            filter={"id": {"$in": fast_results.ids}},
            n_results=top_k
        )
        
        return precise_results

このアプローチにより、精度を維持しながら検索速度とコストを最適化できます。

段階的な移行戦略

プロジェクトの成長に応じて次元数を調整する戦略：

プロトタイプ段階: 768次元で迅速に実装・検証
β版リリース: 1536次元で精度向上
スケール段階: データ増加に応じて768次元に戻す、またはハイブリッド化

python

# 移行スクリプト例
def migrate_dimensions(old_dim=1536, new_dim=768):
    # 既存データを再Embedding
    for batch in get_all_documents(batch_size=1000):
        new_embeddings = client.embeddings.create(
            model="text-embedding-3-small",
            input=batch.texts,
            dimensions=new_dim
        )
        # 新しいコレクションに保存
        new_collection.add(
            embeddings=new_embeddings,
            documents=batch.texts,
            metadatas=batch.metadatas
        )

まとめ

RAGシステムにおける次元数の選択は、検索精度、処理速度、ストレージコストのトレードオフです。一般的な推奨は以下の通りです：

デフォルト選択: 1536次元（OpenAI text-embedding-3-small）
大規模・高速重視: 768次元
最高精度重視: 3072次元（OpenAI text-embedding-3-large）

重要なのは、プロジェクト初期から過度に最適化せず、実際のデータとクエリで検証しながら調整することです。A/Bテストにより、自社のユースケースで次元数の違いが実際にどの程度の影響を与えるかを測定し、データに基づいた意思決定を行いましょう。

次元数は一度決めると変更が困難なため、将来のスケールを見据えた設計が重要です。不確実性が高い場合は、768次元または1536次元から始め、段階的に最適化する柔軟なアプローチを推奨します。

2025年12月21日

RAG

655 文字

RAG実装における次元の設定方法 | 768d vs 1536d vs 3072d

Embedding次元数の基礎知識

次元数とは

例えば、768次元のベクトルは以下のような形式になります：

python

[0.023, -0.156, 0.891, ..., 0.234] # 768個の浮動小数点数

主要なEmbeddingモデルと次元数

モデル	次元数	用途
all-MiniLM-L6-v2	384	軽量・高速
nomic-embed-text	768	バランス型
text-embedding-3-small	1536 (可変)	OpenAI標準
text-embedding-3-large	3072 (可変)	最高精度
mxbai-embed-large	1024	ローカル高精度

OpenAIのtext-embedding-3-small/largeは、dimensionsパラメータで次元数を動的に調整可能な点が特徴です。

次元数による違いの詳細比較

1. ストレージコスト

次元数はベクトルDBのストレージサイズに直接影響します。

1万チャンクを格納した場合の容量（pgvectorの場合）：

python

# 計算式: チャンク数 × 次元数 × 4バイト(float32)
768次元:  10,000 × 768  × 4 = 30.72 MB
1536次元: 10,000 × 1,536 × 4 = 61.44 MB  
3072次元: 10,000 × 3,072 × 4 = 122.88 MB

100万チャンクの場合：

768次元: 約3 GB
1536次元: 約6 GB
3072次元: 約12 GB

これに加えて、インデックス（HNSW、IVFFlat等）の容量も必要です。一般的にインデックスはベクトルデータの20-40%程度を追加で消費します。

2. 検索速度

次元数が増えると、類似度計算（コサイン類似度、内積等）のコストが線形に増加します。

実測パフォーマンス（10万ベクトルから類似トップ10を検索）：

次元数	平均検索時間	インデックス作成時間
768d	12ms	45秒
1536d	23ms	92秒
3072d	48ms	185秒

※環境: PostgreSQL 15 + pgvector、HNSW index (m=16, ef_construction=64)

検索速度は次元数にほぼ比例しますが、インデックスの最適化により影響を軽減できます。

3. メモリ使用量

ベクトル検索時、候補ベクトルをメモリに展開するため、次元数が高いとメモリ消費が増加します。

10万ベクトル検索時のメモリ使用量：

768次元: 約300 MB
1536次元: 約600 MB
3072次元: 約1.2 GB

大規模システムでは、この違いがサーバースペック選定に影響します。

4. 検索精度

次元数と精度の関係は線形ではありません。多くの場合、1536次元で十分な精度が得られ、3072次元への増加は限定的な改善にとどまります。

MTEB（Massive Text Embedding Benchmark）スコア例：

text-embedding-3-small (512d): 61.2
text-embedding-3-small (1536d): 62.3
text-embedding-3-large (1024d): 62.8
text-embedding-3-large (3072d): 64.6

512次元→1536次元で約1.1ポイント、1536次元→3072次元で約2.3ポイントの改善です。

OpenAI Embeddingsでの次元削減実装

OpenAIのtext-embedding-3-small/largeでは、dimensionsパラメータで次元数を指定できます。

基本的な実装

python

from openai import OpenAI

client = OpenAI()

# 1536次元（デフォルト）
response = client.embeddings.create(
    model="text-embedding-3-small",
    input="RAGシステムの実装方法"
)

# 768次元に削減
response = client.embeddings.create(
    model="text-embedding-3-small",
    input="RAGシステムの実装方法",
    dimensions=768
)

# 3072次元（text-embedding-3-large）
response = client.embeddings.create(
    model="text-embedding-3-large",
    input="RAGシステムの実装方法",
    dimensions=3072
)

バッチ処理での実装

python

# 複数チャンクを効率的に処理
chunks = ["チャンク1", "チャンク2", ..., "チャンク100"]

response = client.embeddings.create(
    model="text-embedding-3-small",
    input=chunks,
    dimensions=768  # コスト削減のため768次元を指定
)

embeddings = [data.embedding for data in response.data]

次元削減のメカニズム

重要な点：

後から次元を増やすことはできない
異なる次元数のベクトルは比較できない
一度決めた次元数は、そのコレクション全体で統一する必要がある

コスト・パフォーマンス分析

OpenAI APIのコスト比較

text-embedding-3-smallは次元数に関わらず同一料金（$0.02/1M tokens）ですが、ストレージコストと検索速度が変わります。

10万チャンクのRAGシステム（月間100万クエリ想定）：

次元数	Embedding費用	ストレージ費用/月	検索コスト/月	合計/月
512d	$20	$5	$30	$55
768d	$20	$8	$40	$68
1536d	$20	$15	$80	$115

※ストレージ: AWS RDS PostgreSQL、検索: Lambda実行コスト概算

Ollamaのリソースコスト

ローカルLLMの場合、次元数による処理時間の違いがサーバーコストに影響します。

100万チャンク処理時間（M1 Max、GPU使用）：

768d (nomic-embed-text): 約14時間
1024d (mxbai-embed-large): 約18時間
1536d (カスタムモデル): 約25時間

GPU時間単価を考慮すると、初期Embedding生成で次元数が大きな影響を与えます。

ベクトルDB別の実装例

pgvectorでの実装

python

import psycopg2
from pgvector.psycopg2 import register_vector

conn = psycopg2.connect(database="vectordb")
register_vector(conn)

# テーブル作成（次元数を指定）
cur = conn.cursor()
cur.execute("""
    CREATE TABLE embeddings_768 (
        id SERIAL PRIMARY KEY,
        content TEXT,
        embedding vector(768),  -- 次元数を明示
        metadata JSONB
    )
""")

# HNSWインデックス作成
cur.execute("""
    CREATE INDEX ON embeddings_768 
    USING hnsw (embedding vector_cosine_ops)
    WITH (m = 16, ef_construction = 64)
""")

# データ挿入
cur.execute(
    "INSERT INTO embeddings_768 (content, embedding) VALUES (%s, %s)",
    ("テキスト", embedding_768d)
)

# 検索
cur.execute("""
    SELECT content, 1 - (embedding <=> %s) as similarity
    FROM embeddings_768
    ORDER BY embedding <=> %s
    LIMIT 10
""", (query_embedding, query_embedding))

ChromaDBでの実装

python

import chromadb

client = chromadb.Client()

# コレクション作成（次元数は自動検出）
collection = client.create_collection(
    name="docs_768d",
    metadata={"dimension": 768}  # 管理用
)

# データ追加
collection.add(
    embeddings=embeddings_768d,  # [[...], [...], ...]
    documents=documents,
    metadatas=metadatas,
    ids=ids
)

# 検索
results = collection.query(
    query_embeddings=[query_embedding_768d],
    n_results=10
)

Pineconeでの実装

python

import pinecone

pinecone.init(api_key="YOUR_API_KEY")

# インデックス作成（次元数を指定）
pinecone.create_index(
    name="rag-768d",
    dimension=768,  # 必須パラメータ
    metric="cosine"
)

index = pinecone.Index("rag-768d")

# Upsert
index.upsert(
    vectors=[
        ("id1", embedding_768d, {"text": "内容"}),
        ("id2", embedding_768d, {"text": "内容"})
    ]
)

# 検索
results = index.query(
    vector=query_embedding_768d,
    top_k=10,
    include_metadata=True
)

選択基準とユースケース別推奨

768次元を選ぶべきケース

推奨シナリオ：

大規模データ（100万チャンク以上）を扱う
検索速度を最優先（リアルタイム応答）
ストレージコストを抑えたい
モバイル・エッジデバイスでの動作

具体例：

ECサイトの商品検索（数百万商品）
リアルタイムチャットボット
組み込みデバイスでのローカルRAG

実装時の注意：

python

# OpenAI API使用時
response = client.embeddings.create(
    model="text-embedding-3-small",
    input=texts,
    dimensions=768  # 明示的に指定
)

# Ollama使用時
ollama.embeddings(
    model='nomic-embed-text',  # 768次元モデル
    prompt=text
)

1536次元を選ぶべきケース

推奨シナリオ：

中規模データ（10万〜100万チャンク）
精度とコストのバランス重視
一般的なビジネスアプリケーション

具体例：

社内ナレッジベース検索
カスタマーサポートFAQ
技術ドキュメント検索

デフォルト推奨： OpenAIのtext-embedding-3-smallはデフォルトで1536次元であり、多くのユースケースで最適なバランスです。

3072次元を選ぶべきケース

推奨シナリオ：

最高精度が必要（数パーセントの改善が重要）
データ量が比較的小規模（10万チャンク未満）
コストよりも品質を優先

具体例：

法律文書の精密検索
学術論文のセマンティック検索
高度な推薦システム

実装時の注意：

python

# text-embedding-3-largeを使用
response = client.embeddings.create(
    model="text-embedding-3-large",  # largeモデル
    input=texts,
    dimensions=3072  # フル次元
)

実践的なアーキテクチャ設計

ハイブリッドアプローチ

用途に応じて次元数を使い分ける戦略も有効です：

python

class HybridRAGSystem:
    def __init__(self):
        # 第1段階: 768次元で高速フィルタリング
        self.fast_index = ChromaDB(dimension=768)
        # 第2段階: 1536次元で精密ランキング
        self.precise_index = ChromaDB(dimension=1536)
    
    def search(self, query, top_k=10):
        # Step 1: 768次元で候補を1000件に絞る
        fast_results = self.fast_index.query(
            query_768d, 
            n_results=1000
        )
        
        # Step 2: 上位候補を1536次元で再ランキング
        precise_results = self.precise_index.query(
            query_1536d,
            filter={"id": {"$in": fast_results.ids}},
            n_results=top_k
        )
        
        return precise_results

このアプローチにより、精度を維持しながら検索速度とコストを最適化できます。

段階的な移行戦略

プロジェクトの成長に応じて次元数を調整する戦略：

プロトタイプ段階: 768次元で迅速に実装・検証
β版リリース: 1536次元で精度向上
スケール段階: データ増加に応じて768次元に戻す、またはハイブリッド化

python

# 移行スクリプト例
def migrate_dimensions(old_dim=1536, new_dim=768):
    # 既存データを再Embedding
    for batch in get_all_documents(batch_size=1000):
        new_embeddings = client.embeddings.create(
            model="text-embedding-3-small",
            input=batch.texts,
            dimensions=new_dim
        )
        # 新しいコレクションに保存
        new_collection.add(
            embeddings=new_embeddings,
            documents=batch.texts,
            metadatas=batch.metadatas
        )

まとめ

RAGシステムにおける次元数の選択は、検索精度、処理速度、ストレージコストのトレードオフです。一般的な推奨は以下の通りです：

デフォルト選択: 1536次元（OpenAI text-embedding-3-small）
大規模・高速重視: 768次元
最高精度重視: 3072次元（OpenAI text-embedding-3-large）

RAG実装における次元の設定方法 | 768d vs 1536d vs 3072d

Embedding次元数の基礎知識

次元数とは

主要なEmbeddingモデルと次元数

次元数による違いの詳細比較

1. ストレージコスト

2. 検索速度

3. メモリ使用量

4. 検索精度

OpenAI Embeddingsでの次元削減実装

基本的な実装

バッチ処理での実装

次元削減のメカニズム

コスト・パフォーマンス分析

OpenAI APIのコスト比較

Ollamaのリソースコスト

ベクトルDB別の実装例

pgvectorでの実装

ChromaDBでの実装

Pineconeでの実装

選択基準とユースケース別推奨

768次元を選ぶべきケース

1536次元を選ぶべきケース

3072次元を選ぶべきケース

実践的なアーキテクチャ設計

ハイブリッドアプローチ

段階的な移行戦略

まとめ

ご紹介

LM LIGHTエンタープライズLLM環境の構築

ChatLM共有RAGナレッジアプリ

RAG実装における次元の設定方法 | 768d vs 1536d vs 3072d

Embedding次元数の基礎知識

次元数とは

主要なEmbeddingモデルと次元数

次元数による違いの詳細比較

1. ストレージコスト

2. 検索速度

3. メモリ使用量

4. 検索精度

OpenAI Embeddingsでの次元削減実装

基本的な実装

バッチ処理での実装

次元削減のメカニズム

コスト・パフォーマンス分析

OpenAI APIのコスト比較

Ollamaのリソースコスト

ベクトルDB別の実装例

pgvectorでの実装

ChromaDBでの実装

Pineconeでの実装

選択基準とユースケース別推奨

768次元を選ぶべきケース

1536次元を選ぶべきケース

3072次元を選ぶべきケース

実践的なアーキテクチャ設計

ハイブリッドアプローチ

段階的な移行戦略

まとめ

ご紹介

LM LIGHTエンタープライズLLM環境の構築

ChatLM共有RAGナレッジアプリ