RAGEN-2: エージェント型強化学習における推論の崩壊

Overview

概要 Abstract & Overview

強化学習（RL）を用いて、複数ターンの大規模言語モデル（LLM）エージェントを訓練することは、大きな可能性を秘めている一方で、重要な課題に直面しています。それは、推論の崩壊です。これは、モデルが表面的には多様な応答を生成するものの、意味的には反復的になる現象を指します。これまでの研究では、エントロピーを用いて訓練の安定性を追跡してきましたが、エントロピーは、モデルが異なる入力に注意を払うことを停止している場合でも、誤解を招くほど高い値を示すことがあります。

この論文では、テンプレート崩壊 (template collapse) という概念を紹介します。これは、エージェントが入力に依存しない応答を生成する、つまり、高いエントロピーにもかかわらず多様性が失われる現象です。そして、報酬の分散に基づいた信号対雑音比 (SNR) を用いた SNR-Aware Filtering を提案し、計画、数学、ウェブナビゲーション、およびコード実行の各環境において、多様でタスクに特化した推論を回復させることを目指します。

主な貢献:

テンプレート崩壊の識別： これは、エントロピーが高いように見えるにもかかわらず、推論が入力に依存しないという新しい故障モードを正式に定義するものであり、エントロピーだけでは区別できない。
MIに基づく診断： 相互情報量（MI）が、タスクの成功率との相関関係において、エントロピーよりも優れた診断指標であること（Spearman相関係数：MI-ZScore +0.39、エントロピー -0.14）を示します。
SNR (信号対雑音比) を考慮したフィルタリング： これは、勾配更新の前に、低い報酬分散（低いSNR）を持つプロンプトをフィルタリングする、勾配レベルでの対策です。これにより、正則化が学習を支配することを防ぎます。
クロスドメイン検証： Sokoban (計画)、SearchQA (数学的推論)、WebShop (ウェブナビゲーション)、およびDeepCoder (コード実行) における実験はすべて、一貫した改善を示しています。

Section 1

はじめに

LLMエージェント向けのマルチターン強化学習は、複雑で連続的な意思決定能力を実現する可能性を秘めています。しかし、トレーニングの不安定性は依然として深刻な問題です。従来、研究者はエージェントの出力分布のentropyを、トレーニングの健全性を示す指標として追跡してきました。高いエントロピーは、多様で健全な推論を示唆するものと考えられていました。

RAGEN-2は、この前提に異議を唱えます。複数の環境と強化学習アルゴリズム（PPOとGRPO）に対する体系的な分析を通じて、著者らは、健全な学習には、高いエントロピーが十分であるとも、必要であるとも限らないことを示しています。エージェントは、高いエントロピーを示しながらも、意味的に同一で、入力に依存しない応答を生成する可能性があります。これは、テンプレート崩壊の定義に該当します。

Research Questions

Q1 — Diagnosis

エントロピー以外に、どのようにして「推論の崩壊」を診断できるのでしょうか？また、真に多様な推論と、単なる「テンプレート崩壊」を確実に区別できる指標は何でしょうか？

Q2 — Remedy

テンプレートの崩壊を引き起こす根本的なメカニズムは何ですか？また、複雑な正則化を追加せずに、どのようにしてその影響を軽減できますか？

この論文は、Q1に対する回答として、入力と出力間の相互情報量 (Mutual Information, MI)を提示しています。これは、エージェントの応答が実際に入力に依存しているかどうかを直接的に測定する指標です。また、Q2については、信号対雑音比 (Signal-to-Noise Ratio, SNR)というメカニズムを特定しており、バッチに多くの低報酬分散のプロンプトが含まれている場合、正則化勾配がタスク勾配を上回り、モデルが入力に依存しないテンプレートへと誘導されると述べています。

Section 2

テンプレートの崩壊 — 失敗モード

Template Collapse vs Diverse Reasoning comparison diagram — **図1:** テンプレート崩壊 (左) と多様な推論 (右)。両ケースともエントロピーが高いにもかかわらず、テンプレート崩壊は入力に関わらず固定された応答パターンを生み出す (例: "That's a good question…"、"I need to solve the task…")。一方、多様な推論は、入力に特化した思考を生み出す (例: "Move up agent twice…"、"I see two boxes…")。

2.1 テンプレートコラプスとは何ですか？

テンプレートの崩壊とは、強化学習によって訓練されたLLMエージェントが、入力に関わらず一貫して適用される固定された応答テンプレートの集合に収束する現象を指します。モデルは、例えば、"I need to solve the task step by step" や "Let me think about this carefully" のようなフレーズを、いかなる推論にも先立つ定型的な前置きとして出力することを学習し、結果的に入力特有の情報が無視されることになります。

この問題が巧妙なのは、標準的なエントロピー評価指標では検出できない点です。なぜなら、テンプレート自体が表面上は異なる場合があるからです（モデルはテンプレート表現のプールから選択します）。その結果、全体的なトークンの分布は多様に見えることがあります。しかし、出力が入力に依存しているかどうかを問い合わせたときに、初めてその問題が明らかになります。

なぜテンプレートの崩壊（テンプレートコラプス）を検知することが難しいのでしょうか？ あるチャットボットが、質問の内容に関わらず、常に回答を「素晴らしい質問ですね！段階的に考えてみます...」で始めるように学習したと想像してください。同じプロンプトに対して、その出力結果を何度もサンプリングすると、多様性（異なる段階的な説明）が見られます—これはエントロピーが高いことを意味します。しかし、異なる質問に対して、常に同じように始める—これは相互情報量（MI）が低いことを意味します。従来の監視システムは、エントロピーのみをチェックするため、このような崩壊は完全に気づかれずに見過ごされてしまいます。これは、多くの強化学習（RL）で訓練された大規模言語モデル（LLM）システムが陥る罠です。

2.2 相互情報量とエントロピー

重要な洞察は、2つの関連性はあるものの、異なる量との区別です。エントロピー H(Y) は、単一の入力における出力の多様性を測定します（プロンプト x に対する N 個のサンプルはどの程度変動するでしょうか？）、一方、相互情報量 MI(X;Y) は、入力にわたって出力が変化するかどうかを測定します（異なるプロンプトは、意味のある異なる応答を生み出すでしょうか？）。

Definition: Mutual Information (MI)

入力Xと出力Yの間の相互情報量は、入力に関する情報が、出力に関する不確実性をどれだけ減少させるかを定量化するものです。

\text{MI}(X;Y) = H(Y) - H(Y|X)

MI（相互情報量）は、等価的に、MI = H(Y) − H(Y|X) と表されます。MIが高い場合、異なる入力が実際に異なる出力をもたらします。一方、H(Y)が高いにもかかわらずMIが低い場合、モデルは入力に依存しない動作に陥り、これを「テンプレート崩壊（template collapse）」と呼びます。

この区別は非常に重要です。エントロピーは、入力内の多様性（同じプロンプトに対する複数の実行における変動）を測定します。一方、相互情報量（MI）は、入力間の識別可能性（エージェントが異なる状況に対して異なる反応を示すかどうか）を測定します。テンプレート崩壊は、高いH(Y)を示すものの、MIは低い傾向があります。これは、エージェントが固定されたテンプレート空間内で「創造的」であるものの、実際にはタスクに適切に反応していないことを意味します。

具体的な例：エントロピーが誤りを生じる場合。 あるモデルが、ソコバン（箱を動かすパズル）のデータで学習されたとします。そして、そのモデルが常に以下のような文章を生成するようになっているとします。「盤面を慎重に分析する必要がある。系統的に動かしてみよう...」 これは、実際の盤面の配置に関わらず、常に生成される前置きです。プロンプトごとに8回の出力を生成すると、その続きの部分は全て異なっており、エントロピーが高いと言えます。しかし、異なる盤面の状態の間で出力を比較すると、冒頭部分が同一であるため、相互情報量（MI）はほぼゼロに近くなります。高いエントロピーは「モデルが探索している」ことを示唆しますが、相互情報量は真実を語ります。「モデルはそもそも盤面を見ていない」のです。

2.3 オンライン MI プロキシの指標

正確な相互情報量（MI）の計算はコストが高いため、RAGEN-2は、学習中に効率的に計算できるオンラインMIの近似値（プロキシ）のファミリーを提案しています。

MI-ZScore

プロンプトごとの平均報酬を、Zスコアを用いて標準化します。報酬信号におけるプロンプト間のばらつきが大きい場合、入力依存的な挙動（高い相互情報量: MI）を示唆します。これが最もシンプルで効果的な指標です。

MI Seq Estimate

出力の連続的な構造から、異なるプロンプスにおける応答のユニークなプレフィックスの頻度を用いて、情報理論的な推定値としてMI（相互情報量）を直接推定します。

MI-ZScore (Seq)

Zスコアのアプローチと、シーケンスレベルでの推定を組み合わせることで、より堅牢なプロキシを実現し、可変長の応答やノイズの多い報酬信号にも対応します。

Section 3

SNRメカニズム：なぜ崩壊が起こるのか

テンプレートの収束（テンプレートコラプス）が発生する理由を理解することは、効果的な対策を設計するために不可欠です。RAGEN-2は、勾配レベルでの説明を提案しています。具体的には、勾配更新の信号対雑音比（SNR）が、モデルがタスク固有の挙動を学習するか、それともテンプレートに収束するかどうかを決定します。

SNR mechanism: high vs low task-related gradient — **図3:** タスク関連性の高い勾配と低い勾配の比較。報酬のばらつきが大きいプロンプト（上）では、タスクの勾配が優勢となり、モデルはタスクに適した応答を学習します。一方、報酬のばらつきが小さいプロンプト（下）では、正則化の勾配が優勢となり、モデルは入力に依存しないテンプレートに近づきます。

3.1 経験的観察

著者らは、バッチ内の報酬のばらつき (RV)に基づいて、プロンプトを分位数バケット Q1～Q6 に分類しています。各バケットについて、彼らは以下の3つの量を測定しています。報酬のばらつき、タスク勾配のノルム、および正則化勾配のノルム。

Reward variance quantile analysis showing task gradient vs regularization gradient — **図4：** PPO (上) および GRPO (下) の報酬分散分位数分析 (Q1 = 低い報酬分散, Q6 = 高い報酬分散)。報酬分散が増加すると: (a) 報酬分散が急速に増加し、(b) タスク勾配のノルムが比例して増加するが、(c) 正則化勾配のノルムはほぼ一定に保たれる。これは、低い報酬分散のプロンプトが、主要な信号対雑音比 (SNR) を支配していることを確認する。

3.2 勾配分解

RL（強化学習）の学習目標は、タスク固有の要素と正則化要素（例えば、基準モデルからのKLダイバージェンス）に分解できます。全体の勾配は、これらの2つの要素の合計です。

Gradient Decomposition

\nabla \mathcal{L} = \underbrace{\nabla \mathcal{L}_\text{task}}_{\text{task gradient}} + \underbrace{\nabla \mathcal{L}_\text{reg}}_{\text{regularization gradient}}

タスクの勾配は、プロンプトの実行における報酬の分散に比例します。報酬の分散がほぼゼロの場合（すべての実行で同じ報酬が得られる場合）、タスクの勾配は消失し、正則化勾配のみが重みの更新を駆動します。

\text{SNR} = \frac{\|\nabla \mathcal{L}_\text{task}\|}{\|\nabla \mathcal{L}_\text{reg}\|}

SNR（信号対雑音比）は、タスク勾配の大きさに対する正則化勾配の大きさの比として定義されます。低-RV（低参照値）プロンプトでは、SNR ≪ 1 となり、これは正則化が優勢であることを意味します。正則化項（参照からのKL発散）は、モデルをすべての入力における平均的な振る舞い、つまり入力に依存しないテンプレートへと誘導します。

段階的な説明：なぜ低いRV値のプロンプトが学習を阻害するのか

強化学習（RL）のトレーニングを、モデルの重みに作用する2つの力の綱引きだと考えてみましょう。

タスク勾配：「この特定のタスクでより高い報酬を得るために重みを更新する」。— 強度は、ロールアウト間での報酬のばらつき（報酬の分散）に比例します。
正則化勾配：「参照モデルに近い状態を維持する（KLダイバージェンス）。」— 強度はほぼ一定で、報酬の分散に依存しません。

すべてのロールアウトが報酬 ≈ 0（モデルがまったく解けない）または報酬 ≈ 1（モデルが完全に解ける）というプロンプトの場合、報酬の分散はほぼゼロになります。タスク勾配が消滅します。正則化のみが残り、モデルはすべての入力に対する平均的な振る舞い—入力に依存しないテンプレートへと引き寄せられます。数千回の勾配ステップを通じて、これらの低いRV値のプロンプトはテンプレートの振る舞いを蓄積し、それがモデル全体に広がり、影響を与えます。

3.3 SNRを考慮したフィルタリング

解決策は非常にシンプルです。勾配を計算する前に、低いRV（低いSNR）のプロンプトをフィルタリングします。十分に高い報酬分散を持つプロンプトのみを保持することで、すべての勾配更新は、意味のあるタスク信号によって支配されます。Top-Pのバリエーションでは、プロンプトをRVでランク付けし、上位の割合を累積的に選択します。

SNR-Aware Filtering (Top-P)

1. プロンプトごとにSample N回の試行を行い、報酬を評価します。

2. プロンプトごとの報酬変動 (RV) を計算します。プロンプトを RV の降順でソートします。

3. 最も高いRV（報酬価値）を持つプロンプトから順に選択し、累積サンプル数がバッチのTop-P割合に達するまで繰り返します。このとき、選択されたプロンプトのみを使用して勾配更新を行います。

Top-P vs Top-K: なぜ累積選択が固定カウントよりも優れているのか。 Top-Kフィルタリングは、最も高い報酬分散を持つK個のプロンプトを保持します。しかし、Kが10で、プロンプトが100ある場合、常にちょうど10個のプロンプトだけが使用されます—たとえ11番目のプロンプトが非常に高い報酬分散を持ち、10番目のプロンプトが平均よりもわずかに高い報酬分散しか持たない場合でも。一方、Top-Pは、プロンプトを報酬分散の高い順に並べ替え、合計でトレーニングサンプル数（プロンプト数ではなく）がP×batch_sizeに達するまで累積します。これにより、分布に適応できます。いくつかのプロンプトが非常に高い報酬分散を持つ場合、Top-Pはより少ない数のプロンプトを選択しますが、より代表的なプロンプトを選択します。報酬分散が均等に分布している場合、Top-PはTop-Kと似たような動作をします。

SNR-Aware Filtering algorithm 3-step visualization — **図5：** SNR-Awareフィルタリングアルゴリズムの可視化。プロンプトAはRV=9.0（高い）、プロンプトBはRV=1.0（低い）、プロンプトCはRV=5.0（中）。Top-Pフィルタリング後、低RVのプロンプトBは除外され、AとCのみが勾配の更新に寄与します。

Section 4

実験

4.1 評価テストベッド

テンプレートの普遍性と、SNR-Aware Filteringの効果を検証するために、著者らは、4つの異なるタスクタイプを網羅する多様なテスト環境を構築した。

🧩 Sokoban パズル計画

🔍 SearchQA 数学的推論。

🛒 WebShop ウェブナビゲーション

💻 DeepCoder コード実行

4.2 テンプレートの崩壊：一貫した故障モードとして

すべての4つの環境において、SNR-Aware Filteringを使用しない学習では、一貫して「崩壊」の兆候が見られます。具体的には、MI-ZScoreの指標が低下し、成功率が停滞し、出力の長さが著しく減少します。これは、モデルが短い、テンプレートのような応答を生成していることを示す行動的な指標です。

SearchQA training curves showing template collapse — **図6 (SearchQA):** Top-Pフィルタリング、エントロピー正則化、KL正則化、およびフィルタリングなしの学習曲線比較。 (a) 成功率、(b) 検索精度、(c) 推論エントロピー。 Top-Pフィルタリングは、高い性能を維持しながら健全なエントロピーを保ちます。エントロピーおよびKL正則化のみでは、性能の低下を防ぐことはできません。

出力の短縮化は、特に重要な情報を提供します。モデルがテンプレートコラプスに陥ると、固定された前置きを先頭に配置し、問題固有の推論を省略するよう学習するため、結果として全体の応答が短くなります。この行動パターンは、コラプスの開始兆候を示す早期警告指標として機能する可能性があります。

Output length collapse across multiple environments — **図8:** 学習中の、複数の環境における出力長の経時変化。テンプレートの崩壊（フィルタリングなし）条件下では、出力長が特徴的な急激な低下を示すことがあり、これはモデルが短い、固定されたテンプレートへの応答に収束することを示しています。SNR-Aware Filtering (Top-P) は、出力長を一定に保ちます。

4.3 SNR（信号対雑音比）を考慮したフィルタリングは、常にパフォーマンスを向上させます。

すべての4つの環境において、SNR-Aware Filtering (Top-P) は、最高のベースラインを上回るか、同等以上の性能を発揮します。結果は明確な順序を示しており、最終的な成功率の観点から見ると、Top-P ≥ Top-K ≥ フィルタリングなし となります。

SNR-Aware Filtering results across 4 environments — **図7：** 全4つの環境（Sokoban, SearchQA, WebShop, DeepCoder）における成功率の比較。青色はTop-Pフィルタリング、緑色はTop-Kフィルタリング、灰色破線はフィルタリングなしを示しています。Top-Pフィルタリングは、すべての環境において最も高い、または同等の性能を達成しています。特に、SokobanとWebShopにおいて、その差が顕著です。

PPOとGRPOアルゴリズム、および計画、推論、ナビゲーション、コーディングといった様々なタスクにおける一貫性は、テンプレートの崩壊が、特定の環境やアルゴリズムに特有の問題ではなく、エージェントベースの強化学習における根本的な課題であることを示唆しています。

Section 5

分析

5.1 MI（心筋梗塞）の診断精度は、エントロピーよりも優れている。

タスクの成功度合いを評価するために、著者らは、各指標と、複数の学習試行における最終的なタスク成功率との間のSpearmanの順位相関係数を計算しています。その結果は驚くべきものでした。

Spearman correlation chart: MI vs Entropy with task success rate — **図9:** 診断指標とタスク成功率の間のSpearmanの相関係数。MIに基づく指標（青色）は、強い正の相関を示しており、MI-ZScoreは+0.39に達しています。エントロピーに基づく指標（オレンジ色）は、負の相関（-0.11から-0.14）を示しており、これはそれらが*逆に関係している*ことを示しています。

Metric	Spearman ρ	Type
MI-ZScore	+0.39	MI-based
MI Seq Estimate	+0.22	MI-based
MI-ZScore (Seq)	+0.09	MI-based
Cond. Entropy	−0.14	Entropy-based
Reasoning Entropy	−0.11	Entropy-based

ここで、Spearmanの相関係数とは何を意味するのか？ この論文では、様々な学習試行回数において、各指標とタスク成功率との間のSpearmanの順位相関係数（ρ）を測定しています。 ρ = +1 は、その指標が成功のランクを完全に予測することを示します。 ρ = −1 は、それが失敗を完全に予測することを示します。 ρ = 0 は、相関関係がないことを意味します。主要な発見：MI-ZScoreのρ = +0.39 は、MIが高い学習試行回数ほど成功しやすい傾向があることを意味します。エントロピーのρ = −0.14 は、エントロピーが高い 学習試行回数は、実際には成績が悪い 傾向があることを意味します。これは、単に情報がないだけでなく、健全性指標として積極的に誤解を招くものです。

エントロピー指標とタスクの成功率の負の相関関係は、本論文の中核となる実験結果です。エントロピーは単に情報を提供しないだけでなく、積極的に誤った情報を与えます。 高いエントロピーは、トレーニングの失敗と同時に発生する可能性があり、そのため、危険な監視指標となります。トレーニングの問題を検出するためにエントロピーのみに依存する専門家は、実際には最も深刻な種類の失敗を見逃す可能性があります。

5.2 どのような場合にフィルタリングが役立つのか？

SNR（信号対雑音比）を考慮したフィルタリングは、学習においてある程度の確率性が存在する場合に最も効果的です。つまり、報酬信号が不確実で、試行ごとに変動する場合に有効です。著者らは、さまざまな確率レベル（0～100%）での性能を評価しました。

Stochasticity analysis: Top-p vs No Filtering — **図10：** 成功率 vs. 確率的要素の割合（0% = 決定論的、100% = 完全ランダムな報酬）。Top-Pフィルタリングは、5～50%の確率的要素の割合において最も大きな効果を発揮します。0%（決定論的）の場合、両方の手法は同様の性能を示します。80～100%（ほぼランダム）の場合、性能差は再び縮小します。

この結果は理論的な根拠に基づいています。報酬が完全に決定論的な場合、すべてのプロンプトはRV=0（モデルがすでに収束している）か、高いRV（まだ学習中）のいずれかになります。この場合、フィルタリングは容易になります。最適なのは、部分的に確率的な環境です。これは、現実的なマルチステップエージェントの学習におけるまさにその条件です。

なぜ確率性が重要なのか？ リワード分散 (RV) は、モデルの出力が、同じプロンプトに対して、時に成功し、時に失敗する場合にのみ存在します。つまり、環境に何らかのランダム性がある場合、またはモデルが完全に収束していない場合に発生します。実際のエージェントの学習（ウェブナビゲーション、計画など）においては、このような部分的な確率性は一般的です。SNR-Aware Filtering は、まさにこのような状況を想定して設計されています。確率性が 0% の場合、すべてのプロンプトは常に成功するか、常に失敗するかのいずれかであり、したがってすべてのプロンプトについて RV = 0 となり、フィルタリングは役に立ちません。一方、確率性が 80～100% の場合、報酬はアクションに関わらずほぼランダムであり、タスクの勾配自体がノイズになります。

5.3 トレーニングの動向

詳細な分析から、フィルタリングが学習のプロセスにどのように影響を与えるかが明らかになります。フィルタリングなしでは、学習が進むにつれて、分散がゼロ（ZV: zero-variance）のプロンプトの数が増加し、モデルが決定論的なテンプレートに収束してしまいます。一方、Top-Pフィルタリングを使用すると、ZVプロンプトが積極的に除外され、学習全体を通して高品質な勾配信号が維持されます。

Training dynamics: kept ratio, zero-var count, reward variance, success rate — **図11 (Sokoban):** Top-P、Top-K、およびフィルタリングなしの学習ダイナミクス。(a) 維持率 (kept ratio)、(b) ゼロバリアンス数 (zero-variance count)、(c) 報酬の分散 (reward variance)、(d) 成功率 (success rate)。Top-Pフィルタリングは、良好な維持率を維持しながらZVの増加を抑制し、これは最終的な成功率の向上に直接関連しています。

Heatmaps: prompt-level reward and RV evolution over training — **図12：** トレーニング中（初期/中期/後期）のプロンプトレベルでの報酬とRV（Reward Variance）の推移を示すヒートマップ。トレーニングが進むにつれて、プロンプトは高いRV（健全な学習）のクラスターと低いRV（学習の停滞）のクラスターに分かれる。テンプレートの崩壊は、モデルがほぼ決定的なポリシーに到達しているプロンプトに優先的に影響する。

5.4 MI（Multi-Instance Learning）とタスク解決の散布図

個々の実行における散布図は、この相関関係を確認しています。高いMI（MI-ZScoreで測定）を持つ実行は、高いタスク解決率でグループ化される一方、低いMIを持つ実行は、下部にグループ化されます。条件付きエントロピーは、そのようなパターンを示さず、これはMIの診断能力の優位性を裏付けています。

MI vs task-solving scatter plot — **図13：** MI（左）と条件付きエントロピー（右）と、タスク解決率との散布図。各点は、1つのチェックポイントにおける1回のトレーニング実行を表しています。MIは明確な正の相関を示し、条件付きエントロピーは相関を示しません。これは、MIがモニタリング指標として優れていることを示しています。

重要な実用的な意味合いとして：MI-ZScoreは、リアルタイムでのトレーニング監視ツールとして機能する。トレーニング中にMI-ZScoreが低下し始めた場合、それはテンプレートがすぐに崩壊する可能性を示す、信頼性の高い早期警告サインです。これは、エントロピーの低下や出力長の変更よりも信頼性が高いと言えます。

Hyperparameter sensitivity sweep ablation — **図14：** エントロピー係数、KL係数、およびTop-P比を比較したハイパーパラメータ感度スイープ。RVフィルタースイープ（SNR-Aware Filtering）は、パラメータ値に関わらず、一貫して成功率の向上につながる軌跡を生み出します。一方、エントロピーおよびKLスイープは一貫しない方向を示しており、このことがフィルタリング手法の堅牢性を示しています。

Section 7

結論と限界

RAGEN-2は、LLM向けの自律型強化学習（RL）のトレーニングにおいて、以下の3つの相互に関連する貢献をしています。

テンプレートの陳腐化は現実である。

エージェントベースの強化学習における、形式的に定義された故障モードであり、エージェントが入力に依存しない応答を生成し、その応答はエントロピー指標では検出できない。この現象は、計画、数学、ウェブ、コードの4つの環境において、PPOとGRPOの両方で一貫して観察された。

MIは、エントロピーよりも優れた性能を発揮します。

相互情報量 (MI-ZScore) は、タスクの成功率と +0.39 の Spearman 相関を示すのに対し、エントロピーは −0.14 となり、エントロピーは訓練の健全性モニタとして効果がないだけでなく、誤解を招く可能性があることがわかります。

SNR（信号対雑音比）を考慮したフィルタリングが有効です。

シンプルな、勾配レベルでの介入方法——つまり、勾配更新の前に、報酬のばらつきが小さいプロンプトをフィルタリングすること——は、テストされたすべての環境において、わずかな計算コストで一貫してパフォーマンスを向上させます。

制限事項

SNR（信号対雑音比）を考慮したフィルタリングは、報酬の分散を計算するために報酬信号を必要とします。したがって、報酬がない環境や、純粋な模倣学習の設定では適用できません。
このフィルタリング手法は、計算負荷を増加させます（RVの推定には、1つのプロンプトに対してN回の試行が必要となり、そのために計算資源を消費します）。また、有効なバッチサイズを減少させる可能性があり、これにより、特定の状況下では収束が遅くなる可能性があります。
実験は、テキストベースの環境に焦点を当てています。マルチモーダルエージェント（視覚、音声）への拡張や、連続的なアクション空間への対応は、今後の課題です。

RAGEN-2: エージェント型強化学習における推論の崩壊.

概要 Abstract & Overview

主な貢献:

はじめに

テンプレートの崩壊 — 失敗モード

2.1 テンプレートコラプスとは何ですか？

2.2 相互情報量とエントロピー

2.3 オンライン MI プロキシの指標

MI-ZScore

MI Seq Estimate

MI-ZScore (Seq)

SNRメカニズム：なぜ崩壊が起こるのか

3.1 経験的観察

3.2 勾配分解

段階的な説明：なぜ低いRV値のプロンプトが学習を阻害するのか

3.3 SNRを考慮したフィルタリング

実験

4.1 評価テストベッド

4.2 テンプレートの崩壊：一貫した故障モードとして

4.3 SNR（信号対雑音比）を考慮したフィルタリングは、常にパフォーマンスを向上させます。

分析

5.1 MI（心筋梗塞）の診断精度は、エントロピーよりも優れている。

5.2 どのような場合にフィルタリングが役立つのか？

5.3 トレーニングの動向

5.4 MI（Multi-Instance Learning）とタスク解決の散布図

結論と限界

テンプレートの陳腐化は現実である。

MIは、エントロピーよりも優れた性能を発揮します。

SNR（信号対雑音比）を考慮したフィルタリングが有効です。

制限事項

参考文献

RAGEN-2: エージェント型強化学習における推論の崩壊.

概要 Abstract & Overview

主な貢献:

はじめに

テンプレートの崩壊 — 失敗モード

2.1 テンプレートコラプスとは何ですか？

2.2 相互情報量とエントロピー

2.3 オンライン MI プロキシの指標

MI-ZScore

MI Seq Estimate

MI-ZScore (Seq)

SNRメカニズム：なぜ崩壊が起こるのか

3.1 経験的観察

3.2 勾配分解

段階的な説明：なぜ低いRV値のプロンプトが学習を阻害するのか

3.3 SNRを考慮したフィルタリング

実験

4.1 評価テストベッド

4.2 テンプレートの崩壊：一貫した故障モードとして

4.3 SNR（信号対雑音比）を考慮したフィルタリングは、常にパフォーマンスを向上させます。

分析

5.1 MI（心筋梗塞）の診断精度は、エントロピーよりも優れている。

5.2 どのような場合にフィルタリングが役立つのか？

5.3 トレーニングの動向

5.4 MI（Multi-Instance Learning）とタスク解決の散布図

関連研究

合理性の崩壊と政策の陳腐化.

マルチターンエージェント強化学習の安定化.

Human Feedbackによる強化学習 (RL).

結論と限界

テンプレートの陳腐化は現実である。

MIは、エントロピーよりも優れた性能を発揮します。

SNR（信号対雑音比）を考慮したフィルタリングが有効です。

制限事項

参考文献