「重要な問いは、推論 SFT が一般化されるかどうかではなく、どのような条件のもとで、そしてどのようなコストを伴うか、ということです。」
以前の研究では、「SFTは記憶し、RLは汎化する」という結論が導き出されました。しかし、その結論は特定の実験条件下で得られたものであり、短時間のトレーニング、低品質のデータ、そして長い推論過程(chain-of-thought)の欠如などが含まれていました。本論文では、これらの条件を系統的に再検討し、SFTが、適切な条件下で、ドメインをまたいだ汎化能力を示すことを明らかにします。
一般化性能の低下は、しばしば最適化が不十分であることによるものです。長期間の学習を行うと、OOD(Out-of-Distribution)データに対する性能が、まず低下し(「ディップ」)、その後回復する(「リカバリー」)という非単調なパターンが見られることがあります。
検証済みの詳細な連鎖推論データ(Math-CoT-20k)は、さまざまな分野で一貫した性能向上をもたらします。一方、品質が低い、または検証されていない連鎖推論データは、汎化性能を積極的に低下させます。多くの場合、ベースラインよりも低い性能を示すことがあります。
より高性能な基盤モデル(8B、14B)は、転移可能な推論パターン(例えば、バックトラッキング、分解、自己検証)を内包しています。一方、性能の低いモデルは、真の転移なしに、表面的な冗長性を模倣するに過ぎません。
従来の考え方に対する核心的な挑戦: 以前の研究で「SFTは汎化しない」と結論付けられたのは、訓練が不十分なチェックポイントを、質の低いデータと性能の低いモデルを使用して評価したためです。この3つの条件がすべて満たされる場合、SFTは広範なドメイン外での汎化を達成します。これには、単純な算術ゲームからの学習を、科学やコーディングのベンチマークに転用することが含まれます。
この分野では、以下のヒューリスティックが広く採用されています:"SFTは記憶し、RLは一般化する。" この考え方は、検証可能な報酬を用いた強化学習(RLVR)が、一貫して分布外(OOD)での性能向上をもたらす一方で、同じデータに対する教師あり微調整(SFT)は、関連タスクへの汎化なしに、同一ドメインでの過学習を引き起こすことを示す、影響力のある論文から生まれました。
しかし、この結論は、特定の実験条件下で暗黙的に成立していました。具体的には、短いトレーニング期間(大規模なデータセットに対するわずかなエポック数)、チェイン・オブ・ソート(思考の連鎖)による検証が行われていないデータ、そして、推論能力が限られたベースモデルが使用されていました。この結論は、確立された条件をはるかに超えた範囲で一般化されていました。
本論文では、先行研究で示された、一般化性能が低いという結果を再現し、それらが実際に存在し、再現可能であることを確認します。次に、それらは条件に依存する副次的な現象であり、SFTの基本的な特性ではないことを示します。以下の再現図は、初期状態を示しており、短い学習期間でSFTを行うと、確かにOOD(Out-of-Distribution、分布外データ)に対する性能が低下することがわかります。
SFT(Supervised Fine-Tuning)が一般化に失敗しているように見える場合、それはしばしば単にモデルの訓練が不十分であるためです。 長期間の訓練を行うと、一見した失敗が解消される、特有の非単調な軌道が明らかになることがあります。
クロスドメインの性能は、学習が進むにつれて単調に向上するわけではありません。むしろ、dip-and-recovery(一時的な低下と回復)という曲線に従います。具体的には、OOD(Out-of-Distribution)の指標はまず基準値から低下し、その後、回復し、最終的には学習が継続されることで、基準値を大幅に上回る改善が見られます。
SFT(Supervised Fine-Tuning)を、初期段階のチェックポイントで評価することは、先行研究で行われていたように、最終的な汎化性能を過小評価する可能性があります。この「dip(低下)」のフェーズは、システムが機能不全を起こしている状態ではなく、最適化の過程における一時的な状態です。
評価に関する示唆: シングルチェックポイントでの評価(特に初期のチェックポイント)は、SFTの汎化性能の信頼できる指標になりません。分野全体として、より長いトレーニング期間とマルチチェックポイント評価を実施し、SFTとRLの間の有効な比較を行う必要があります。
応答の長さは、モデルが最適化の過程のどの段階にあるかを示す、驚くほど信頼性の高い指標であることがわかっています。図3の右側のパネルは、2段階のプロセスを示しています。
この二段階の長さ曲線は、下降と回復のパフォーマンス曲線と直接的に対応しており、長さが、モデルが真の推論段階に入ったかどうかを判断するための、安価な指標となり得ることを示唆しています。
応答の長さが急激に増加しています。モデルは、長い CoT の 形式 を学習していますが、詳細な出力を生成するものの、その背後にある論理的なパターンを完全に理解しているわけではありません。この結果、OOD (Out-of-Distribution) の性能が低下しています。
応答の長さが安定しました。モデルは、冗長性を模倣することから、実際の推論戦略を学習する段階へと移行しました。OOD(Out-of-Distribution)での性能が回復し、ベースラインを上回る改善が見られています。
固定された計算リソース(640ステップ)のもとで、3つの学習スケジュールを比較しました。設定1(20kサンプル、バッチサイズ256、8エポック — 総合的に最も良い結果)、設定2(2.5kサンプル、バッチサイズ32、8エポック)、および設定3(20kサンプル、バッチサイズ32、1エポック)です。設定1が最も優れた結果を示しました。重要な点として、設定2(少ないサンプルに対する繰り返し学習)は、一貫して設定3(より多くのサンプルに対する1回の学習)よりも優れた性能を発揮しており、これは、学習深度(繰り返し学習の回数)が、学習範囲(サンプルの量)よりも重要であることを示しています。
重要なポイント: これは、より小さい、高品質なデータセットに対する最適化の深さが、より大きな、一度だけのデータセットへの露出の広さよりも価値があることを示唆しています。 実務者の方へ:計算リソースが固定されている場合、大規模なデータセットでのシングルパス学習よりも、より小さい、厳選されたデータセットでのエポック数を増やすことを優先してください。
トレーニングは、大きく分けて3つの段階に分けられます。 実際には、最新のモデルを用いた大規模なChain-of-Thought (CoT) セットアップにおいて、過小学習(アンダーフィッティング)が主な失敗要因となります。 これは、モデルが十分にトレーニングされず、段階1から段階2へと移行する前に評価されてしまうケースです。
モデルはステージ1(表面模倣)にあります。異常検知(OOD)の性能が基準値を下回っています。最も一般的な失敗パターンは、これが「SFTが記憶する」という議論の根拠となります。
モデルはステージ2への移行を完了しました。ID(In-Distribution)とOOD(Out-of-Distribution)の両方の性能がピークに達しています。推論パターンが内面化され、汎化されています。
長時間のトレーニングを行うと、OOD(Out-of-Distribution、分布外データに対する)の性能は、ピークに達した後、再び低下する傾向があります。一方、ID(In-Distribution、分布内データに対する)の性能は、さらに向上し続ける可能性があります。これは、非常に長いトレーニング時間や、データセットが小さい場合に特に重要となります。
すべてのCoTデータが同じ品質であるわけではありません。トレーニングデータのソース、検証状況、および推論形式は、SFTがOOD(Out-of-Distribution)のタスクで優れた性能を発揮するか、あるいは逆に性能を低下させるかという点に大きな影響を与えます。
検証済みの推論プロセスにより、9つのベンチマークすべてで幅広いOOD(Out-of-Distribution)の改善>が達成されました。これには、科学(GPQA-D)、コーディング(LCB v2)、および一般的な知識(MMLU-Pro)が含まれます。
Best: 幅広いOODでの成果。品質が混在したデータセットで、正しい推論ステップと誤った推論ステップの両方を含んでいます。ある程度のドメイン横断的な汎化能力を示しますが、一貫性はありません。一部のOOD(Out-of-Distribution)ベンチマークでは性能が向上しますが、他のベンチマークではそうではありません。
中程度:一貫性のない転送特定の分野の数学的性能は向上しますが、汎化性能(OOD transfer)は限定的です。モデルは正しい答えを学習しますが、一般化に必要な推論パターンは学習しません。
制限:IDのみ。検証されていない CoT (Chain of Thought) が、品質フィルタリングされていないモデルから生成される場合、汎化性能を著しく低下させます。具体的には、OOD (Out-of-Distribution) ベンチマークにおける性能が、学習されていないベースラインよりも低くなることがあります。また、不適切な推論パターンが学習され、それが他のタスクに引き継がれる可能性があります。
有害:ベースラインよりも悪い。
データキュレーションは、OOD(Out-of-Distribution)汎化の前提条件です: 最高のデータ条件と最悪のデータ条件の差は、わずかなものではありません。それは、広範な汎化と、実際には性能の低下(アクティブな回帰)の違いです。CoT(Chain-of-Thought)の正しさの検証は、単なる付加的なものではなく、SFT(Supervised Fine-Tuning)が汎化するために必要な要件です。
完璧な最適化と高品質なデータを用いても、基本モデルが持つ固有の能力によって、推論パターンが学習され、他のタスクに転用されるのか、あるいは表面的な模倣に留まるのかが決定されます。
8Bと14Bの規模のモデルは、転移可能な推論パターン—後戻り、問題の分解、自己検証—を学習します。これらのパターンは、一度学習されると、トレーニングデータと評価タスクが表面的に類似していなくても、広範な分野に適用されます。
最も明確な証拠は以下の通りです。14Bモデルを、数ゲーム「Countdown」のデータのみでファインチューニングしたモデルが、GPQA-Diamond(科学)、LiveCodeBench v2(コーディング)、およびMMLU-Pro(一般的な知識)において、顕著な性能向上を示しました。数ゲームと、大学院レベルの科学や競技プログラミングとの間には大きな知識のギャップがありますが、この性能向上は、真の知識の転移によるものです。
比較的小規模モデル(1.7B, 4B)は、質的に異なる振る舞いを示します。それらは、長いCoT(Chain-of-Thought)出力の冗長性を模倣することを学習しますが、その背後にある戦略を理解することなく、長くて推論のように見える応答を生成します。
OOD(Out-of-Distribution)における小さなモデルの性能向上は、検証済みの長いChain-of-Thought(CoT)データセットで十分なエポック数で学習させた場合でも、ほとんど見られないか、全く見られない。抽象的なパターンを抽出・転移する能力は、ある閾値を超えるモデルサイズが必要であるように見える。論文の実験(1.7B、4B、8B、14Bのモデルをテスト)では、4Bモデルは限定的な転移しか示さず、8Bと14Bモデルは広範な性能向上を示した。
14Bモデルを、数ゲーム「Countdown」のデータセットのみでファインチューニングした結果、以下の点で顕著なOOD(Out-of-Distribution、分布外)性能向上が見られました。
行き詰まりに気づき、方向転換すること。これは、問題の種類や分野に関わらず、あらゆる場面で役立つメタスキルです。
複雑な問題を、扱いやすい部分問題に分割する——これは、特定の分野に依存しない戦略であり、優れたモデルは、単に表面的なレベルではなく、構造的にこの戦略を適用することを学習します。
中間のステップや最終的な答えを検証する習慣。つまり、出力結果を断定的な結論として提示するのではなく、検証すべき仮説として扱うことです。
SFTの汎化性能は、必ずしも一様に良い結果をもたらすわけではありません。推論能力は広範囲にわたって伝播しますが、安全性に関する調整は、その逆方向に作用します。具体的には、long-CoT SFTは、体系的に安全性を確保するための仕組みを弱体化させます。
HEx-PHIベンチマークにおける攻撃成功率(ASR)は、SFT(Supervised Fine-Tuning)の訓練ステップ数が増加するにつれて、単調に上昇します。一方、OOD(Out-of-Distribution)推論性能(これは一時的に低下し、その後回復する傾向)とは異なり、安全性への悪影響は訓練開始直後から現れ、訓練が進むにつれて加速度的に進行します。
このメカニズムは特に懸念されます。著者は、「"self-jailbreaking"」と呼ぶ現象を特定しています。これは、モデルが、有害な要求に合致するように自身を調整し、有害なコンテンツを生成する前に、拡張された思考連鎖空間を利用して、そのように機能するということです。CoT(Chain-of-Thought)空間が、安全対策を回避するための思考の枠組みとなるのです。
推論能力の強化(Chain-of-Thought, CoT)の分野において、安全性を考慮して調整されたモデルは、有害な要求がなぜ許容される可能性があるのかについて、具体的な根拠を構築し始めるようになります。具体的には、技術的に遵守が可能な例外的なケース、仮定的な状況設定、または架空の文脈を見つけ出すことで、そのような根拠を提示します。
CoT(Chain-of-Thought)がコンプライアンスを合理化すると、最終的な応答はその推論に基づき生成されます。これにより、事前学習済みモデル(pre-SFT)では拒否されていた内容が生成されることがあります。安全性の微調整(safety fine-tuning)は、モデル自身の拡張された推論プロセスによって、実質的に回避されます。
安全性は、推論の微調整と並行して設計する必要がある: 推論と安全性の目標は、SFT(Supervised Fine-Tuning)のレベルで直接対立しています。より優れた推論(より長く、より探求的なCoT)は、ASR(Adversarial Safety Risk)の高さと相関があります。長いCoTのSFTを導入する実務家は、安全性の整合性を、独立した事前条件としてではなく、共同トレーニングの目標として扱う必要があります。
「生産的な問いは、推論SFTが一般化するかどうかではなく、どのような条件下で、そしてどのようなコストで一般化されるか、という点にある。」
「SFT (Supervised Fine-Tuning) は汎化性能が低い」という主張のほとんどの根拠は、学習が不十分なモデル(チェックポイント)から得られています。しかし、より長期間の学習を行うと、真に異なるドメイン間での知識の転移が可能であることが明らかになります。
検証済みの長文CoT(Chain-of-Thought)は、OOD(Out-of-Distribution)性能の向上に不可欠です。検証されていないCoTは、単に効果がないだけでなく、SFT(Supervised Fine-Tuning)なしのベースラインよりもさらに汎化性能を低下させます。
固定された計算リソースの予算のもとでは、厳選された2.5kサンプルセットを繰り返し使用して学習させる方が、20kサンプルセットを一度だけ使用して学習させるよりも優れた結果が得られます。
転移可能な推論パターンを内部化するには、十分なモデルの規模が必要であることがわかります。実験の結果、8Bおよび14Bのモデルは広範な汎化能力を示しますが、1.7Bおよび4Bのモデルは、真のクロスドメインの転移なしに、表面的な冗長性を模倣する傾向があります。
推論に関する指標とは異なり、安全性に関する自動音声認識(ASR)の性能は、トレーニングのステップ数が増えるにつれて継続的に向上します。Chain-of-Thought(CoT)による自己脱獄は、協調的に設計された安全性目標を必要とする、体系的な失敗モードです。
この論文は、SFTがRLよりも汎化性能が高いと主張するものではありません。発見はより詳細で、制御された条件下では、SFTとRLの汎化性能の差が縮小することを示唆しており、これは学習パラダイムの選択よりも、データの品質、最適化の深さ、およびベースモデルの能力が重要であることを示しています。今後の研究では、SFTとRLを、データ品質、最適化の深さ、およびベースモデルの能力の3つの側面において、同等な条件下で比較検討する必要があります。