強化学習(RL)を用いて、複数ターンの大規模言語モデル(LLM)エージェントを訓練することは、大きな可能性を秘めている一方で、重要な課題に直面しています。それは、推論の崩壊です。これは、モデルが表面的には多様な応答を生成するものの、意味的には反復的になる現象を指します。これまでの研究では、エントロピーを用いて訓練の安定性を追跡してきましたが、エントロピーは、モデルが異なる入力に注意を払うことを停止している場合でも、誤解を招くほど高い値を示すことがあります。
この論文では、テンプレート崩壊 (template collapse) という概念を紹介します。これは、エージェントが入力に依存しない応答を生成する、つまり、高いエントロピーにもかかわらず多様性が失われる現象です。そして、報酬の分散に基づいた信号対雑音比 (SNR) を用いた SNR-Aware Filtering を提案し、計画、数学、ウェブナビゲーション、およびコード実行の各環境において、多様でタスクに特化した推論を回復させることを目指します。
LLMエージェント向けのマルチターン強化学習は、複雑で連続的な意思決定能力を実現する可能性を秘めています。しかし、トレーニングの不安定性は依然として深刻な問題です。従来、研究者はエージェントの出力分布のentropyを、トレーニングの健全性を示す指標として追跡してきました。高いエントロピーは、多様で健全な推論を示唆するものと考えられていました。
RAGEN-2は、この前提に異議を唱えます。複数の環境と強化学習アルゴリズム(PPOとGRPO)に対する体系的な分析を通じて、著者らは、健全な学習には、高いエントロピーが十分であるとも、必要であるとも限らないことを示しています。エージェントは、高いエントロピーを示しながらも、意味的に同一で、入力に依存しない応答を生成する可能性があります。これは、テンプレート崩壊の定義に該当します。
エントロピー以外に、どのようにして「推論の崩壊」を診断できるのでしょうか? また、真に多様な推論と、単なる「テンプレート崩壊」を確実に区別できる指標は何でしょうか?
テンプレートの崩壊を引き起こす根本的なメカニズムは何ですか? また、複雑な正則化を追加せずに、どのようにしてその影響を軽減できますか?
この論文は、Q1に対する回答として、入力と出力間の相互情報量 (Mutual Information, MI)を提示しています。これは、エージェントの応答が実際に入力に依存しているかどうかを直接的に測定する指標です。また、Q2については、信号対雑音比 (Signal-to-Noise Ratio, SNR)というメカニズムを特定しており、バッチに多くの低報酬分散のプロンプトが含まれている場合、正則化勾配がタスク勾配を上回り、モデルが入力に依存しないテンプレートへと誘導されると述べています。
テンプレートの崩壊とは、強化学習によって訓練されたLLMエージェントが、入力に関わらず一貫して適用される固定された応答テンプレートの集合に収束する現象を指します。モデルは、例えば、"I need to solve the task step by step" や "Let me think about this carefully" のようなフレーズを、いかなる推論にも先立つ定型的な前置きとして出力することを学習し、結果的に入力特有の情報が無視されることになります。
この問題が巧妙なのは、標準的なエントロピー評価指標では検出できない点です。なぜなら、テンプレート自体が表面上は異なる場合があるからです(モデルはテンプレート表現のプールから選択します)。その結果、全体的なトークンの分布は多様に見えることがあります。しかし、出力が入力に依存しているかどうかを問い合わせたときに、初めてその問題が明らかになります。
重要な洞察は、2つの関連性はあるものの、異なる量との区別です。エントロピー H(Y) は、単一の入力における出力の多様性を測定します(プロンプト x に対する N 個のサンプルはどの程度変動するでしょうか?)、一方、相互情報量 MI(X;Y) は、入力にわたって出力が変化するかどうかを測定します(異なるプロンプトは、意味のある異なる応答を生み出すでしょうか?)。
入力Xと出力Yの間の相互情報量は、入力に関する情報が、出力に関する不確実性をどれだけ減少させるかを定量化するものです。
MI(相互情報量)は、等価的に、MI = H(Y) − H(Y|X) と表されます。MIが高い場合、異なる入力が実際に異なる出力をもたらします。一方、H(Y)が高いにもかかわらずMIが低い場合、モデルは入力に依存しない動作に陥り、これを「テンプレート崩壊(template collapse)」と呼びます。
この区別は非常に重要です。エントロピーは、入力内の多様性(同じプロンプトに対する複数の実行における変動)を測定します。一方、相互情報量(MI)は、入力間の識別可能性(エージェントが異なる状況に対して異なる反応を示すかどうか)を測定します。テンプレート崩壊は、高いH(Y)を示すものの、MIは低い傾向があります。これは、エージェントが固定されたテンプレート空間内で「創造的」であるものの、実際にはタスクに適切に反応していないことを意味します。
正確な相互情報量(MI)の計算はコストが高いため、RAGEN-2は、学習中に効率的に計算できるオンラインMIの近似値(プロキシ)のファミリーを提案しています。
プロンプトごとの平均報酬を、Zスコアを用いて標準化します。報酬信号におけるプロンプト間のばらつきが大きい場合、入力依存的な挙動(高い相互情報量: MI)を示唆します。これが最もシンプルで効果的な指標です。
出力の連続的な構造から、異なるプロンプスにおける応答のユニークなプレフィックスの頻度を用いて、情報理論的な推定値としてMI(相互情報量)を直接推定します。
Zスコアのアプローチと、シーケンスレベルでの推定を組み合わせることで、より堅牢なプロキシを実現し、可変長の応答やノイズの多い報酬信号にも対応します。
テンプレートの収束(テンプレートコラプス)が発生する理由を理解することは、効果的な対策を設計するために不可欠です。RAGEN-2は、勾配レベルでの説明を提案しています。具体的には、勾配更新の信号対雑音比(SNR)が、モデルがタスク固有の挙動を学習するか、それともテンプレートに収束するかどうかを決定します。
著者らは、バッチ内の報酬のばらつき (RV)に基づいて、プロンプトを分位数バケット Q1~Q6 に分類しています。各バケットについて、彼らは以下の3つの量を測定しています。報酬のばらつき、タスク勾配のノルム、および正則化勾配のノルム。
RL(強化学習)の学習目標は、タスク固有の要素と正則化要素(例えば、基準モデルからのKLダイバージェンス)に分解できます。全体の勾配は、これらの2つの要素の合計です。
タスクの勾配は、プロンプトの実行における報酬の分散に比例します。報酬の分散がほぼゼロの場合(すべての実行で同じ報酬が得られる場合)、タスクの勾配は消失し、正則化勾配のみが重みの更新を駆動します。
SNR(信号対雑音比)は、タスク勾配の大きさに対する正則化勾配の大きさの比として定義されます。低-RV(低参照値)プロンプトでは、SNR ≪ 1 となり、これは正則化が優勢であることを意味します。正則化項(参照からのKL発散)は、モデルをすべての入力における平均的な振る舞い、つまり入力に依存しないテンプレートへと誘導します。
強化学習(RL)のトレーニングを、モデルの重みに作用する2つの力の綱引きだと考えてみましょう。
すべてのロールアウトが報酬 ≈ 0(モデルがまったく解けない)または報酬 ≈ 1(モデルが完全に解ける)というプロンプトの場合、報酬の分散はほぼゼロになります。タスク勾配が消滅します。正則化のみが残り、モデルはすべての入力に対する平均的な振る舞い—入力に依存しないテンプレートへと引き寄せられます。数千回の勾配ステップを通じて、これらの低いRV値のプロンプトはテンプレートの振る舞いを蓄積し、それがモデル全体に広がり、影響を与えます。
解決策は非常にシンプルです。勾配を計算する前に、低いRV(低いSNR)のプロンプトをフィルタリングします。十分に高い報酬分散を持つプロンプトのみを保持することで、すべての勾配更新は、意味のあるタスク信号によって支配されます。Top-Pのバリエーションでは、プロンプトをRVでランク付けし、上位の割合を累積的に選択します。
テンプレートの普遍性と、SNR-Aware Filteringの効果を検証するために、著者らは、4つの異なるタスクタイプを網羅する多様なテスト環境を構築した。
すべての4つの環境において、SNR-Aware Filteringを使用しない学習では、一貫して「崩壊」の兆候が見られます。具体的には、MI-ZScoreの指標が低下し、成功率が停滞し、出力の長さが著しく減少します。これは、モデルが短い、テンプレートのような応答を生成していることを示す行動的な指標です。
出力の短縮化は、特に重要な情報を提供します。モデルがテンプレートコラプスに陥ると、固定された前置きを先頭に配置し、問題固有の推論を省略するよう学習するため、結果として全体の応答が短くなります。この行動パターンは、コラプスの開始兆候を示す早期警告指標として機能する可能性があります。
すべての4つの環境において、SNR-Aware Filtering (Top-P) は、最高のベースラインを上回るか、同等以上の性能を発揮します。結果は明確な順序を示しており、最終的な成功率の観点から見ると、Top-P ≥ Top-K ≥ フィルタリングなし となります。
PPOとGRPOアルゴリズム、および計画、推論、ナビゲーション、コーディングといった様々なタスクにおける一貫性は、テンプレートの崩壊が、特定の環境やアルゴリズムに特有の問題ではなく、エージェントベースの強化学習における根本的な課題であることを示唆しています。
タスクの成功度合いを評価するために、著者らは、各指標と、複数の学習試行における最終的なタスク成功率との間のSpearmanの順位相関係数を計算しています。その結果は驚くべきものでした。
| Metric | Spearman ρ | Type |
|---|---|---|
| MI-ZScore | +0.39 | MI-based |
| MI Seq Estimate | +0.22 | MI-based |
| MI-ZScore (Seq) | +0.09 | MI-based |
| Cond. Entropy | −0.14 | Entropy-based |
| Reasoning Entropy | −0.11 | Entropy-based |
エントロピー指標とタスクの成功率の負の相関関係は、本論文の中核となる実験結果です。エントロピーは単に情報を提供しないだけでなく、積極的に誤った情報を与えます。 高いエントロピーは、トレーニングの失敗と同時に発生する可能性があり、そのため、危険な監視指標となります。トレーニングの問題を検出するためにエントロピーのみに依存する専門家は、実際には最も深刻な種類の失敗を見逃す可能性があります。
SNR(信号対雑音比)を考慮したフィルタリングは、学習においてある程度の確率性が存在する場合に最も効果的です。つまり、報酬信号が不確実で、試行ごとに変動する場合に有効です。著者らは、さまざまな確率レベル(0~100%)での性能を評価しました。
この結果は理論的な根拠に基づいています。報酬が完全に決定論的な場合、すべてのプロンプトはRV=0(モデルがすでに収束している)か、高いRV(まだ学習中)のいずれかになります。この場合、フィルタリングは容易になります。最適なのは、部分的に確率的な環境です。これは、現実的なマルチステップエージェントの学習におけるまさにその条件です。
詳細な分析から、フィルタリングが学習のプロセスにどのように影響を与えるかが明らかになります。フィルタリングなしでは、学習が進むにつれて、分散がゼロ(ZV: zero-variance)のプロンプトの数が増加し、モデルが決定論的なテンプレートに収束してしまいます。一方、Top-Pフィルタリングを使用すると、ZVプロンプトが積極的に除外され、学習全体を通して高品質な勾配信号が維持されます。
個々の実行における散布図は、この相関関係を確認しています。高いMI(MI-ZScoreで測定)を持つ実行は、高いタスク解決率でグループ化される一方、低いMIを持つ実行は、下部にグループ化されます。条件付きエントロピーは、そのようなパターンを示さず、これはMIの診断能力の優位性を裏付けています。
重要な実用的な意味合いとして:MI-ZScoreは、リアルタイムでのトレーニング監視ツールとして機能する。トレーニング中にMI-ZScoreが低下し始めた場合、それはテンプレートがすぐに崩壊する可能性を示す、信頼性の高い早期警告サインです。これは、エントロピーの低下や出力長の変更よりも信頼性が高いと言えます。
RAGEN-2は、LLM向けの自律型強化学習(RL)のトレーニングにおいて、以下の3つの相互に関連する貢献をしています。
エージェントベースの強化学習における、形式的に定義された故障モードであり、エージェントが入力に依存しない応答を生成し、その応答はエントロピー指標では検出できない。この現象は、計画、数学、ウェブ、コードの4つの環境において、PPOとGRPOの両方で一貫して観察された。
相互情報量 (MI-ZScore) は、タスクの成功率と +0.39 の Spearman 相関を示すのに対し、エントロピーは −0.14 となり、エントロピーは訓練の健全性モニタとして効果がないだけでなく、誤解を招く可能性があることがわかります。
シンプルな、勾配レベルでの介入方法——つまり、勾配更新の前に、報酬のばらつきが小さいプロンプトをフィルタリングすること——は、テストされたすべての環境において、わずかな計算コストで一貫してパフォーマンスを向上させます。