digital base
プロダクトドキュメント最新情報コンテンツ会社概要

お問い合わせ

ご質問やご相談など、お気軽にお問い合わせください。

デジタルベース株式会社

〒106-0047
東京都港区南麻布3-20-1 5階

サイトメニュー

  • トップページ
  • プロダクト
  • ドキュメント
  • 最新ニュース
  • 記事一覧
  • 会社情報

お問い合わせ

  • info@digital-base.co.jp

NVIDIA Inception Program / Intel Partner ISV /
NTTPC Innovation LAB / IT導入補助金 対象

© デジタルベース株式会社. All rights reserved.
一覧に戻る

2026年1月28日

·

技術情報

·
466 文字

LLMファインチューニング向けデータセット設計|量より質を実現する実践指針

ファインチューニングの成否を分けるのはデータの量ではなく質です。本稿では、高品質データセットの4特性、フォーマット選択、PEFT/LoRAによるデータ効率化、ドメイン特化設計、日本語LLMの事例、合成データ生成、回避すべき落とし穴までを、業務AI基盤構築の観点から体系的に整理します。

LLMファインチューニング向けデータセット設計|量より質を実現する実践指針

はじめに

社内文書や業務フローに特化した大規模言語モデル(LLM)を構築する際、多くのプロジェクトが「とにかくデータを大量に集める」方向に進みがちです。しかし、ファインチューニングの成否を実際に左右するのは、データの量ではなく質です。500〜1,000件の高品質なデータが、5万件の低品質データを上回る性能を発揮した事例は数多く報告されています。

本稿では、DigitalBaseが社内AI基盤の構築支援を通じて整理してきた知見をもとに、ファインチューニング用データセットの設計指針を体系的に解説します。高品質データの判断基準、フォーマット選択、PEFT/LoRAによるデータ効率化、ドメイン特化型設計、日本語LLMの実践事例、合成データ生成、そして避けるべき落とし穴までを、実務で即活用できる形でまとめます。


高品質なファインチューニングデータセットに必要な4つの特性

高品質なデータセットは、多様性・正確性・関連性・清潔さの4軸で評価できます。Databricksの「LIMIT」研究では、異なるタイプのデータを2,000〜6,000件混合することで、7B〜30Bモデルにおいて最も効率的な学習が実現できることが示されました。

多様性については、タスクの種類(QA、要約、推論)、文体(フォーマル/カジュアル)、複雑さのレベル(単純な指示から多段階推論まで)を意図的に混合することが重要です。ただし、過度な多様性は学習を不安定にするため、本番環境で実際に遭遇するシナリオの代表的なサンプルに絞る必要があります。

正確性と一貫性については、すべてのサンプルが事実として正しく、内部的に矛盾がないことが求められます。Anthropicの研究によると、クラウドソーシングによるアノテーションでは平均63%程度しか評価者間で一致しません。このため、ドメイン専門家による検証プロセスが不可欠です。法律AIのCoCounselプロジェクトでは、弁護士とドメイン専門家が6ヶ月間・約4,000時間をかけて約3万件のデータを精査し、汎用データセット5〜10万件を上回る性能を達成しています。

データの関連性とは、本番環境の入力形式と訓練データの形式が一致していることを意味します。OpenAIは「推論時に期待される形式と同じ形式で訓練サンプルを用意せよ」と明言しています。また、出力の分布比率も重要です。例えば、訓練データの60%が「お答えできません」という回答である一方、本番では5%しか必要ない場合、モデルは過剰に拒否するようになります。


効果的なデータフォーマットの選択

ファインチューニングデータの構造は、目的に応じて3つの主要フォーマットから選択します。

Alpacaフォーマットは、instruction-input-output形式の事実上の標準であり、多くのオープンソースプロジェクトで採用されています。instructionフィールドでタスクを説明し、inputで任意のコンテキストを提供し、outputで期待される応答を記述します。日本語プロジェクトではichikara-instructionやDolly-jaがこの形式を採用しています。

ChatML形式(OpenAI標準)は、マルチターン対話に適しており、system/user/assistantのロールを持つメッセージ配列で構成されます。OpenAIのGPT系モデルのファインチューニングではこの形式が前提となります。LLM-jpやSwallowプロジェクトでも、OASST由来のデータでこの対話形式が使われています。

Preference形式(DPO/RLHF用)は、同一のpromptに対してchosenとrejectedの2つの応答ペアを用意します。LLM-jpのv1.1では、HH-RLHFを翻訳した12,000件のデータでDPOを適用し、日本語VicunaQAのスコアを2倍に向上させました。この形式はアライメント改善に極めて効果的です。


データセットサイズと学習効率の関係

データセットサイズの最適値は、タスクの複雑さと使用する手法によって大きく異なります。Google DeepMindの2024年のスケーリング則研究によると、モデルサイズが大きくなるほど必要なファインチューニングデータは減少し、200Bモデルは100Bモデルより約60%少ないデータで同等の性能を達成できます。

タスクタイプ最小サンプル数推奨サンプル数備考
フォーマット学習50-100100-500一貫性の高い形式で96%+の精度
スタイル調整100-500500-1,000キャラクター口調、敬体/常体など
タスク特化500-1,0001,000-5,000PEFT使用時は少量で効果
ドメイン知識1,000-5,0005,000-10,000専門家検証必須
マルチタスク5,000-10,00010,000-50,000多様なタスク混合

OpenAIの知見として、「訓練サンプル数を2倍にするたびに、同程度の改善が期待できる」という対数的なスケーリング特性があります。これは逆に言えば、初期の少量データで大きな効果が得られ、その後は収穫逓減することを意味します。

翻訳タスクの2024年の研究では、1,000〜2,000件では性能が低下し、5,000件以上で初めて実質的な改善が観測されました。タスクの複雑さによって「最小有効サイズ」が異なる点に注意が必要です。


PEFTとLoRAがもたらすデータ効率化

Parameter-Efficient Fine-Tuning(PEFT)、特にLoRAとQLoRAの普及により、ファインチューニングに必要なデータ量は大きく減少しました。IBMの分析によると、フルファインチューニングが数千〜数万サンプルを必要とするのに対し、LoRAは200〜500サンプルで狭いタスクに対応できます。

LoRAの動作原理は、元のモデルパラメータを凍結し、全パラメータの0.1〜0.3%のみを低ランク行列として追加学習することにあります。これにより、メモリ使用量が2〜3分の1に削減され、チェックポイントサイズは1,000〜10,000分の1になります。さらに重要なのは、LoRAが正則化効果を持ち、小規模データセットでの過学習を抑制する点です。

推奨されるLoRAハイパーパラメータは以下のとおりです。ランク(r)は8から開始し、複雑なタスクでは16、32、64と増加させます。alphaはランクの2倍に設定します。QLoRAペーパーの知見として、すべての線形層をターゲットにすること(attention層だけでなく)で適応品質が向上します。学習率は5e-6〜5e-5の範囲で、小規模データセットでは低めに設定します。

QLoRAは4ビット量子化とLoRAを組み合わせ、単一の48GB GPUで65Bパラメータモデルのファインチューニングを可能にしました。Guanacoモデルは高品質データセットとQLoRAにより、ChatGPTの99.3%の性能を達成しています。

10万サンプル未満ではPEFTが推奨され、100万サンプル以上の場合にのみフルファインチューニングの検討価値があります。なお、汎用能力の維持や破壊的忘却の回避という観点からも、PEFTは優位性を持ちます。


ドメイン特化型データセットの設計と収集

医療、法律、技術文書といった専門ドメイン向けのファインチューニングでは、3段階のアプローチが効果的です。

第1段階:一般ドメイン知識の注入では、分野の基礎知識をモデルにエンコードします。医療分野であれば、MedQuAD(47,457件のQ&Aペア)、PubMedQA、MIMIC-IIIなどの公開データセットが活用できます。法律分野ではLEXGLUE、契約条項データセット、判例データベースが該当します。

第2段階:ドメイン指示チューニングでは、多様なドメインタスクでモデルを強化します。このとき、ドメイン固有のトークナイザーの使用を検討する価値があります。「consideration」は法律では「約因」という専門用語であり、日常用語とは全く異なる意味を持ちます。医療用語の「BRCA1」も単一トークンとして処理すべきです。

第3段階:特定タスクへの適応では、具体的な臨床タスクや業務フローに合わせた調整を行います。ここで合成データ生成が有効になる場合があります。NHS-LLMプロジェクトでは、NHS.UK から2,354ページを収集し、高性能なTeacherモデルを用いてソース資料に基づいた指示-応答ペアを生成しています。

医療LLMに関する研究からの警告として、知識集約型ファインチューニングを過度に行うと、長文コンテキストの理解能力が低下する可能性があります。汎用データとドメインデータを混合することで、この問題を軽減できます。


日本語LLMファインチューニングの実践事例

日本語LLMエコシステムは急速に発展しており、複数のプロジェクトから貴重な知見が得られています。

LLM-jp(国立情報学研究所)は、最も詳細に文書化された日本語LLMプロジェクトです。v1.1のリリースで重要な発見がありました。SFTから「jaster」データセットを除外したところ、日本語VicunaQAベンチマークのスコアが34%から67.5%に向上しました。jasterは簡潔すぎる回答を生成する傾向があり、オープンエンドな評価で不利に働いていたためです。さらにDPO(HH-RLHFの日本語翻訳9,000件+3,000件)を追加することで、大幅な改善を実現しています。

ichikara-instructionは、理研AIPの日本語専門家が作成した約1万件の高品質データセットで、日本語ファインチューニングのゴールドスタンダードとされています。作成コストは約2,000万円と高額ですが、翻訳データセットを一貫して上回る性能を示します。JSQuAD 0.78、JAQKET 0.86、JCommonsenseQA 0.84という高いスコアを記録しています。

ELYZAは、Llamaシリーズをベースとした継続事前学習アプローチで注目を集めています。Depth Up-Scaling(継続学習前にモデル深度を拡張)技術により、Llama-3-ELYZA-JP-120Bを作成しました。予備実験では数学/コードデータは効果がなく、自然言語のみの方が性能が高かったという報告は、データ選定の難しさを示す興味深い知見です。

Swallow(東京工業大学)は、Llama-3.1やGemma-2をベースに、OASST1/2、Dolly、HH-RLHF、独自のMagpieデータセットを組み合わせています。

日本語固有の課題として、英語中心のトークナイザーが日本語を多数の小さな単位に分割し、コスト増と推論速度低下を招く点があります。また、高品質なネイティブデータセットが限られており、多くが機械翻訳に依存しています。Dolly-jaやOASST-jaには翻訳エラーや不自然な日本語が含まれることが、LLM-jpの調査で確認されています。


学習効率を高める合成データ生成とデータ拡張

限られたシードデータから訓練データを拡張する手法は、3つのカテゴリに分類できます。

Self-Instructは、175件の人手作成シード指示から始め、LLM自身にinstruction-input-outputを生成させる手法です。Super-NaturalInstructionsで33%の改善を達成しましたが、生成データの46%にエラーが含まれる(出力の誤り43%、入力ミスマッチ35%、理解不能な指示9%)という課題があります。品質フィルタリングが必須です。

Evol-Instruct(Microsoft WizardLM)は、指示を進化させるアプローチです。In-Depth Evolution(制約追加、推論深化)とIn-Breadth Evolution(新規多様化)を組み合わせます。Genetic-Instruct(2024年)はこれを進化原理で拡張し、512件のシード質問から750万件のコーディング指示を生成しました。突然変異と交叉の両方を組み合わせることで最高性能を達成しています。

Auto Evol-Instruct(2024年)は、オプティマイザーLLMが進化軌跡を分析し、最適な進化手法を自動選択します。Mistral-7Bの数学推論を13.84ポイント向上させました。

OpenCodeInstruct(2024年)の重要な知見として、わずか50万件の合成サンプルでLlama-3およびQwen2.5-Coderのinstructモデルを上回り、コード品質の評価には実行ベースのフィードバックよりLLM判定の方が効果的であることが示されました。

2024年8月の研究によると、LLMベースのデータ拡張はシードセットが非常に小さい場合にのみ優位性があり、多くの場合、同義語置換やバックトランスレーションなどの従来手法が同等以上の精度を低コストで達成します。


アクティブラーニングとカリキュラム学習の活用

アクティブラーニングは、モデルが最も不確実なサンプル(エントロピー最大、信頼度マージン最小)を選択的にラベリングする手法です。ランダムサンプリングと比較して、アノテーション量を50〜80%削減できます。実装ステップは以下のとおりです。

  1. 100〜500件の高品質な初期データセットを構築
  2. モデルをサブセットでファインチューニング
  3. モデルを使って新規データを事前ラベリング
  4. QA専門家がレビュー・修正
  5. データセットを拡張しながら反復

SIFTアルゴリズム(2024年)は、Nearest Neighbor検索の冗長データ選択問題を解決し、情報利得を最適化するサンプル選択を実現しました。

カリキュラム学習は、易しいデータから難しいデータへと段階的に学習を進める戦略です。研究結果によると効果は中程度(精度向上は最大1.77%)ですが、LLM定義の難易度が人間定義を上回るという知見が得られています。注意点として、逆カリキュラム(難→易)は性能を悪化させ、ランダムな均一サンプリングに大きく劣ることが確認されています。

CAMPUS(2025年)は、モデルの能力変化を考慮した動的カリキュラムを提案しており、同じデータでも学習段階によって難易度が異なる点を反映しています。


避けるべきデータセットの特徴と対策

現実のデータセットには7〜50%のアノテーションエラーが含まれるという推定があります。データ品質の問題は「1兆ドル規模の問題」と呼ばれ、モデルアーキテクチャを変更せずにデータ品質を改善するだけで性能が37%向上した事例もあります。

データ汚染(test data contamination)は最も深刻な問題の一つです。テストデータが訓練データに混入すると、ベンチマークスコアが人為的に膨張します。研究によると、in-distribution汚染は真の推論能力を向上させず、13Bモデルが汚染により大規模モデル相当のスコアを「達成」できてしまいます。HumanEvalベンチマークの8〜18%がRedPajama-Data-1Tと重複しているという分析もあります。対策として、n-gramオーバーラップ除去に加え、パラフレーズ検出を含むセマンティック脱汚染が必要です。

過学習リスクへの対策として、以下が効果的です。早期停止(検証性能が低下した時点で学習を停止)、ドロップアウト・重み減衰などの正則化、LoRA/QLoRAの使用(本質的に正則化効果がある)、学習率の適切な設定(2e-5〜5e-5を起点に調整)。

破壊的忘却は、特定タスクにファインチューニングすると汎用能力が失われる現象です。EWC(Elastic Weight Consolidation)、リハーサル(元データセットのサンプルを定期的に提示)、PEFT使用(大部分のパラメータが凍結されるため)で軽減できます。

ファインチューニングがアライメントを破壊するリスクも報告されています。ファインチューニング済みモデルは、ジェイルブレイクに3倍脆弱になり、有害な応答を生成する確率が22倍増加する可能性があります。良性のデータセットであってもアライメントを劣化させうる点に留意が必要です。


データセット設計チェックリスト

データ準備フェーズ

  • タスク目標を明確に定義し、本番環境の入力形式を特定する
  • ソースを特定(ドメイン文書、タスクデモ、公開データセット、合成生成)
  • タスク複雑さに基づいてサイズを計画(最小1,000件、推奨1,000〜50,000件)
  • PII除去、重複排除、ノイズフィルタリングのパイプラインを構築

品質保証フェーズ

  • 明確なアノテーションガイドラインを確立し、評価者間一致度を測定
  • ドメイン専門家による検証を実施(特に専門分野)
  • フォーマットの一貫性をチェック
  • 応答タイプの分布が本番の期待分布と一致することを確認
  • テストデータ汚染チェックを実施

フォーマット選択

  • 一般的な指示チューニング → Alpaca形式
  • OpenAI API → ChatML形式
  • アライメント改善 → Preferenceペア(DPO用)

学習設定(PEFT使用時)

  • ランク(r):8から開始、複雑なタスクでは16/32/64
  • Alpha:r × 2
  • ターゲット層:すべての線形層
  • 学習率:5e-6〜5e-5(小規模データでは低め)
  • エポック数:1〜3(指示チューニングではマルチエポックは有害)
  • 早期停止を有効化

推奨オープンソースデータセット一覧

データセット名サイズ特徴ライセンス
databricks-dolly-15k15K商用利用可能な初の高品質人手作成データCC BY-SA 3.0
OpenAssistant/oasst1161K+35言語対応、多言語対話に最適Apache 2.0
yahma/alpaca-cleaned52Kハルシネーション修正済みのAlpacaCC BY-NC 4.0
ichikara-instruction10K日本語ファインチューニングの最高品質非商用(商用は有償)
llm-jp/hh-rlhf-12k-ja12KDPO用日本語PreferenceデータMIT
izumi-lab/llm-japanese-dataset8.4M翻訳・知識タスク向け大規模日本語CC BY-SA 4.0

まとめ:成功するファインチューニングの3原則

第1原則:少量高品質を徹底する。 700件の高品質データが50,000件の低品質翻訳データを上回った日本語実験が示すように、品質への投資は常にリターンを生みます。人手作成・ネイティブ言語データを優先し、合成データは厳格な品質フィルタリングを経て使用します。

第2原則:PEFTを積極的に活用する。 10万サンプル未満ではLoRA/QLoRAがフルファインチューニングと同等以上の性能を発揮し、計算コスト、メモリ使用量、過学習リスク、破壊的忘却のすべてで優位性を持ちます。すべての線形層をターゲットにし、ランク8から実験を開始するのが定石です。

第3原則:データ品質を継続的にモニタリングする。 データ汚染チェック、out-of-distribution評価、汎用タスクでの破壊的忘却モニタリングを怠らないことが重要です。DPOを追加することでアライメントを改善できます。日本語プロジェクトでは、ichikara-instructionと英日混合データの組み合わせが最も安定した結果をもたらしています。

DigitalBase データ連携フロー
DigitalBase

社内データを、ネットワーク不要で
“使えるAI”に。

エンタープライズに必要なAI機能を1つに集約した、ライセンス型のオンプレミスLLM基盤。 機密データを外部に出さず、完全オフライン環境で運用できます。

  • ✓ 専用AIチャット / ドキュメントAgent(RAG)
  • ✓ 文字起こし・ベンチマーク測定
  • ✓ 管理者・共有・権限管理機能
無料で試す製品の詳細を見る

資料請求・導入のご相談は お問い合わせ から。

ニュースリリース

最新のお知らせやプレスリリースをご覧いただけます

お知らせ
「AI NATIVE EXPO 2026」(6月10日〜12日 @ 幕張メッセ) に出展いたします
Interop Tokyo 併設の総合展「AI NATIVE EXPO 2026」に出展いたします。社内データを自動連携・加工し、BI・AIエージェントへ繋ぐ一連のフローを展示します。
2026年6月8日
プレスリリースPR TIMES
台湾AIインフラ企業Spingence Technologyと社内データ連携AIプラットフォームを共同開発
4月15日〜17日開催「NexTech Week 2026【春】第10回 AI・人工知能 EXPO」に出展 ~社内データをAIに接続し、業務フローに組み込む企業向けAI基盤~
2026年4月6日
お知らせ
「AI Frontier 2026」にスポンサー出展
AI技術の最前線を発信するカンファレンス「AI Frontier 2026」にスポンサーとして出展いたします。
2026年3月4日
一覧に戻る