LLM向けファインチューニング解説: ChatML形式とAlpaca形式を比較

LLMファインチューニングには主にAlpaca形式とChatML形式の2つのデータフォーマットが存在します。それぞれの歴史的背景、データ構造の違い、性能特性を解説し、Unslothでの実装方法を紹介。どちらの形式を選ぶべきかの判断基準も示します。

要約

Instruction Tuningは2021年のGoogle FLANから始まり、InstructGPTを経てChatGPTへと進化した「指示に従うAI」を作るための基盤技術
LLMファインチューニングのデータ形式は主に「Alpaca形式（シングルターン）」と「ChatML形式（マルチターン）」の2種類が存在
Llama 3、Qwen2、Gemmaなどの最新モデルはChat形式を採用しており、Unslothは両形式に完全対応している

ファインチューニングとは

ファインチューニング（Fine-tuning）とは、事前学習済みの大規模言語モデル（LLM）に対して、特定のタスクやドメインに特化したデータセットで追加学習を行う手法です。ゼロからモデルを訓練するプレトレーニングと比較して、少ないデータ・計算リソースで目的に合ったモデルを構築できるという大きなメリットがあります。

ファインチューニングの成否を決める重要な要素の一つが「データフォーマット」です。同じデータ内容でも、どのような形式でモデルに入力するかによって、学習効率や最終的な性能が大きく変わります。本稿では、LLMファインチューニングにおける2つの主要なデータ形式について、その歴史的背景から実装方法まで詳しく解説いたします。

Instruction Tuningとは

概念の誕生

Instruction Tuning（指示チューニング）とは、事前学習済みの言語モデルに対して「指示→応答」形式のデータで追加学習を行い、ユーザーの指示に従って適切な応答を生成できるようにする手法です。

この概念は2021年にGoogleが発表した「FLAN（Finetuned Language Net）」で初めて体系化されました。FLANは、62種類の自然言語処理タスクを「指示形式」に変換したデータセットで言語モデルを学習させることで、未知のタスクへの汎化能力が大幅に向上することを実証しました。

InstructGPTの影響

2022年、OpenAIが発表した「InstructGPT」は、Instruction Tuningの実用化において決定的な役割を果たしました。InstructGPTは、人間のフィードバックを用いた強化学習（RLHF: Reinforcement Learning from Human Feedback）と組み合わせることで、より人間の意図に沿った応答を生成できるようになりました。

このInstructGPTの成功が、後のChatGPTやGPT-4の基盤技術となり、現在の対話型AIの隆盛につながっています。

Instruction Tuningの3つの世代

Instruction Tuningは、大きく3つの世代に分けられます。第1世代はFLANに代表される「タスク指示型」で、特定のNLPタスクを指示形式で学習させるものでした。第2世代はInstructGPTやAlpacaに代表される「汎用指示型」で、より多様な指示に対応できるようになりました。そして第3世代が、ChatGPTのような「対話型」で、マルチターンの会話を通じて指示を理解し実行できるようになっています。

Alpaca形式の歴史と特徴

歴史的背景

2023年3月、Stanford大学の研究チームが「Alpaca」を公開しました。これは、Meta社のLLaMA 7Bモデルを、OpenAIのtext-davinci-003から生成した52,000件の指示応答データでファインチューニングしたものです。当時としては革新的な成果で、わずか100ドル以下のコストでChatGPTに匹敵する性能を実現できることを示しました。

このAlpacaプロジェクトで採用されたデータ形式が「Alpaca形式」または「Instruction形式」と呼ばれ、以降のオープンソースLLM開発における標準フォーマットの一つとなりました。

データ構造

Alpaca形式は、3つのフィールドで構成されます：

一覧に戻る

比較項目	Alpaca形式	ChatML形式
登場時期	2023年3月	2023年（OpenAI API）
会話ターン	シングルターンのみ	マルチターン対応
システムプロンプト	テンプレートに固定	柔軟に設定可能
データ変換の容易さ	簡単	やや複雑
推奨ユースケース	分類・抽出・翻訳など	チャットボット・対話AI
最新モデルの対応	限定的	ほぼ全モデル対応

LLM向けファインチューニング解説: ChatML形式とAlpaca形式を比較

要約

ファインチューニングとは

Instruction Tuningとは

概念の誕生

InstructGPTの影響

Instruction Tuningの3つの世代

Alpaca形式の歴史と特徴

歴史的背景

データ構造

プロンプトテンプレート

メリットと限界

ChatML形式の登場と進化

ChatMLとは

データ構造

実際のトークン化

ShareGPT形式との関係

2つの形式の比較

Unslothでの実装

対応しているチャットテンプレート一覧

ChatML形式での実装例

Alpaca形式での実装例

シングルターンからマルチターンへの変換

どちらを選ぶべきか？

ChatML形式を推奨するケース

Alpaca形式で十分なケース

日本語ローカルLLMへの応用