---
arxiv_id: 2604.06268
title: "RAGEN-2: エージェント型強化学習における推論の崩壊 | Flecto"
authors:
  - Zhefei Yu
  - Sipeng Zheng
  - Kun Shao
  - Zongqing Lu
difficulty: Advanced
tags:
  - Agent
  - Reasoning
  - LLM
published_at: 2026-04-08
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.06268/
lang: ja
---

> Zhefei Yu、Sipeng Zheng、Kun Shao、Zongqing Lu ・北京大学、MLL Lab

## Abstract

強化学習（RL）を用いて、複数ターンの大規模言語モデル（LLM）エージェントを訓練することは、大きな可能性を秘めている一方で、重要な課題に直面しています。それは、 推論の崩壊 です。これは、モデルが表面的には多様な応答を生成するものの、意味的には反復的になる現象を指します。これまでの研究では、エントロピーを用いて訓練の安定性を追跡してきましたが、エントロピーは、モデルが異なる入力に注意を払うことを停止している場合でも、誤解を招くほど高い値を示すことがあります。

この論文では、 テンプレート崩壊 (template collapse) という概念を紹介します。これは、エージェントが入力に依存しない応答を生成する、つまり、高いエントロピーにもかかわらず多様性が失われる現象です。そして、報酬の分散に基づいた信号対雑音比 (SNR) を用いた SNR-Aware Filtering を提案し、計画、数学、ウェブナビゲーション、およびコード実行の各環境において、多様でタスクに特化した推論を回復させることを目指します。

## Introduction

LLMエージェント向けのマルチターン強化学習は、複雑で連続的な意思決定能力を実現する可能性を秘めています。しかし、トレーニングの不安定性は依然として深刻な問題です。従来、研究者はエージェントの出力分布の entropy を、トレーニングの健全性を示す指標として追跡してきました。高いエントロピーは、多様で健全な推論を示唆するものと考えられていました。

RAGEN-2は、この前提に異議を唱えます。複数の環境と強化学習アルゴリズム（PPOとGRPO）に対する体系的な分析を通じて、著者らは、健全な学習には、高いエントロピーが十分であるとも、必要であるとも限らないことを示しています。エージェントは、高いエントロピーを示しながらも、意味的に同一で、入力に依存しない応答を生成する可能性があります。これは、テンプレート崩壊の定義に該当します。

この論文は、Q1に対する回答として、入力と出力間の 相互情報量 (Mutual Information, MI) を提示しています。これは、エージェントの応答が実際に入力に依存しているかどうかを直接的に測定する指標です。また、Q2については、 信号対雑音比 (Signal-to-Noise Ratio, SNR) というメカニズムを特定しており、バッチに多くの低報酬分散のプロンプトが含まれている場合、正則化勾配がタスク勾配を上回り、モデルが入力に依存しないテンプレートへと誘導されると述べています。

## Experiments

### テンプレートの普遍性と、SNR-Aware Filteringの効果を検証するために、著者らは、4つの異なるタスクタイプを網羅する多様なテスト環境を構築した。

すべての4つの環境において、SNR-Aware Filteringを使用しない学習では、一貫して「崩壊」の兆候が見られます。具体的には、MI-ZScoreの指標が低下し、成功率が停滞し、出力の長さが著しく減少します。これは、モデルが短い、テンプレートのような応答を生成していることを示す行動的な指標です。

出力の短縮化は、特に重要な情報を提供します。モデルがテンプレートコラプスに陥ると、固定された前置きを先頭に配置し、問題固有の推論を省略するよう学習するため、結果として全体の応答が短くなります。この行動パターンは、コラプスの開始兆候を示す早期警告指標として機能する可能性があります。

すべての4つの環境において、SNR-Aware Filtering (Top-P) は、最高のベースラインを上回るか、同等以上の性能を発揮します。結果は明確な順序を示しており、最終的な成功率の観点から見ると、 Top-P ≥ Top-K ≥ フィルタリングなし となります。

PPOとGRPOアルゴリズム、および計画、推論、ナビゲーション、コーディングといった様々なタスクにおける一貫性は、テンプレートの崩壊が、特定の環境やアルゴリズムに特有の問題ではなく、エージェントベースの強化学習における根本的な課題であることを示唆しています。

## Conclusion

### RAGEN-2は、LLM向けの自律型強化学習（RL）のトレーニングにおいて、以下の3つの相互に関連する貢献をしています。

## Head

### RAGEN-2: エージェント型強化学習における推論の崩壊 | Flecto

## Meta

RAGEN-2は、エージェント型強化学習におけるテンプレート崩壊を特定します。これは、LLMエージェントが高いエントロピーを持つにもかかわらず、反復的で入力に依存しない応答を生成する場合に発生します。相互情報量は、診断指標としてエントロピーよりも優れています（Spearman係数：+0.39 vs -0.14）、そして、SNR-Awareフィルタリングは、4つの環境すべてにおいて、一貫してパフォーマンスを向上させます。

### RAGEN-2: エージェント型強化学習における推論の崩壊 | Flecto

RAGEN-2は、エージェント型強化学習におけるテンプレート崩壊を特定します。これは、LLMエージェントが高いエントロピーを持ちながらも、入力に関わらず反復的で一貫性のない応答を生成する場合に発生します。相互情報量は、エントロピーよりも優れた診断指標であり（Spearman係数：+0.39 vs -0.14）、SNR-Aware Filteringは、4つの異なる環境において、一貫してパフォーマンスを向上させます。

### https://flecto.zer0ai.dev/ja/papers/2604.06268/

### ja_JP

### https://flecto.zer0ai.dev/ja/papers/2604.06268/

## Hero Metric

### MI-ZScore 相関係数 (Spearman's rank correlation coefficient)

### Entropy Spearman 相関係数.

### 検証済み環境

## Hero Button

### arXivで読む ↗

### プロジェクトページ ↗

## Hero Teaser

RLで学習されたLLMエージェントは、 テンプレート崩壊 と呼ばれる状態に陥ることがあり、これは、入力に依存せず、同じような応答を繰り返し生成し、エントロピー評価指標を誤解させる現象です。そして、 相互情報量 と SNR-Aware Filtering が、この問題を診断し、修正するための鍵となります。

## Abstract H2

### 概要 Abstract & Overview

## Abstract Contributions H3

### 主な貢献:

## Abstract Contribution

### テンプレート崩壊の識別： これは、エントロピーが高いように見えるにもかかわらず、推論が入力に依存しないという新しい故障モードを正式に定義するものであり、エントロピーだけでは区別できない。

MIに基づく診断： 相互情報量（MI）が、タスクの成功率との相関関係において、エントロピーよりも優れた診断指標であること（Spearman相関係数：MI-ZScore +0.39、エントロピー -0.14）を示します。

SNR (信号対雑音比) を考慮したフィルタリング： これは、勾配更新の前に、低い報酬分散（低いSNR）を持つプロンプトをフィルタリングする、勾配レベルでの対策です。これにより、正則化が学習を支配することを防ぎます。

クロスドメイン検証： Sokoban (計画)、SearchQA (数学的推論)、WebShop (ウェブナビゲーション)、およびDeepCoder (コード実行) における実験はすべて、一貫した改善を示しています。

## Introduction H2

### はじめに

## Introduction Rq1

### エントロピー以外に、どのようにして「推論の崩壊」を診断できるのでしょうか？ また、真に多様な推論と、単なる「テンプレート崩壊」を確実に区別できる指標は何でしょうか？

## Introduction Rq2

### テンプレートの崩壊を引き起こす根本的なメカニズムは何ですか？ また、複雑な正則化を追加せずに、どのようにしてその影響を軽減できますか？

## Template Collapse H2

### テンプレートの崩壊 — 失敗モード

## Template Collapse Figure Caption

図1: テンプレート崩壊 (左) と多様な推論 (右)。両ケースともエントロピーが高いにもかかわらず、テンプレート崩壊は入力に関わらず固定された応答パターンを生み出す (例: "That's a good question…"、"I need to solve the task…")。一方、多様な推論は、入力に特化した思考を生み出す (例: "Move up agent twice…"、"I see two boxes…")。

## Template Collapse H3

### 2.1 テンプレートコラプスとは何ですか？

### 2.2 相互情報量とエントロピー

### 2.3 オンライン MI プロキシの指標

## Template Collapse

テンプレートの崩壊とは、強化学習によって訓練されたLLMエージェントが、入力に関わらず一貫して適用される固定された応答テンプレートの集合に収束する現象を指します。モデルは、例えば、 "I need to solve the task step by step" や "Let me think about this carefully" のようなフレーズを、いかなる推論にも先立つ定型的な前置きとして出力することを学習し、結果的に入力特有の情報が無視されることになります。

この問題が巧妙なのは、標準的なエントロピー評価指標では検出できない点です。なぜなら、テンプレート自体が表面上は異なる場合があるからです（モデルはテンプレート表現のプールから選択します）。その結果、全体的なトークンの分布は多様に見えることがあります。しかし、出力が入力に 依存しているかどうか を問い合わせたときに、初めてその問題が明らかになります。

重要な洞察は、2つの関連性はあるものの、異なる量との区別です。 エントロピー H(Y) は、単一の入力における出力の多様性を測定します（プロンプト x に対する N 個のサンプルはどの程度変動するでしょうか？）、一方、 相互情報量 MI(X;Y) は、入力にわたって出力が変化するかどうかを測定します（異なるプロンプトは、意味のある異なる応答を生み出すでしょうか？）。

この区別は非常に重要です。エントロピーは、入力内の多様性（同じプロンプトに対する複数の実行における変動）を測定します。一方、相互情報量（MI）は、入力間の識別可能性（エージェントが異なる状況に対して異なる反応を示すかどうか）を測定します。テンプレート崩壊は、高いH(Y)を示すものの、MIは低い傾向があります。これは、エージェントが固定されたテンプレート空間内で「創造的」であるものの、実際にはタスクに適切に反応していないことを意味します。

### 正確な相互情報量（MI）の計算はコストが高いため、RAGEN-2は、学習中に効率的に計算できるオンラインMIの近似値（プロキシ）のファミリーを提案しています。

## Template Collapse Mi Definition

### 入力Xと出力Yの間の相互情報量は、入力に関する情報が、出力に関する不確実性をどれだけ減少させるかを定量化するものです。

MI（相互情報量）は、等価的に、MI = H(Y) − H(Y|X) と表されます。MIが高い場合、異なる入力が実際に異なる出力をもたらします。一方、H(Y)が高いにもかかわらずMIが低い場合、モデルは入力に依存しない動作に陥り、これを「テンプレート崩壊（template collapse）」と呼びます。

## Template Collapse Mi Zscore

プロンプトごとの平均報酬を、Zスコアを用いて標準化します。報酬信号におけるプロンプト間のばらつきが大きい場合、入力依存的な挙動（高い相互情報量: MI）を示唆します。これが最もシンプルで効果的な指標です。

## Template Collapse Mi Seq

### 出力の連続的な構造から、異なるプロンプスにおける応答のユニークなプレフィックスの頻度を用いて、情報理論的な推定値としてMI（相互情報量）を直接推定します。

## Template Collapse Mi Zscore Seq

### Zスコアのアプローチと、シーケンスレベルでの推定を組み合わせることで、より堅牢なプロキシを実現し、可変長の応答やノイズの多い報酬信号にも対応します。

## Snr H2

### SNRメカニズム：なぜ崩壊が起こるのか

## Snr

テンプレートの収束（テンプレートコラプス）が発生する 理由 を理解することは、効果的な対策を設計するために不可欠です。RAGEN-2は、勾配レベルでの説明を提案しています。具体的には、勾配更新の 信号対雑音比（SNR） が、モデルがタスク固有の挙動を学習するか、それともテンプレートに収束するかどうかを決定します。

著者らは、バッチ内の 報酬のばらつき (RV) に基づいて、プロンプトを分位数バケット Q1～Q6 に分類しています。各バケットについて、彼らは以下の3つの量を測定しています。報酬のばらつき、タスク勾配のノルム、および正則化勾配のノルム。

### RL（強化学習）の学習目標は、タスク固有の要素と正則化要素（例えば、基準モデルからのKLダイバージェンス）に分解できます。全体の勾配は、これらの2つの要素の合計です。

解決策は非常にシンプルです。勾配を計算する前に、低いRV（低いSNR）のプロンプトをフィルタリングします。十分に高い報酬分散を持つプロンプトのみを保持することで、すべての勾配更新は、意味のあるタスク信号によって支配されます。Top-Pのバリエーションでは、プロンプトをRVでランク付けし、上位の割合を累積的に選択します。

## Snr Figure4 Caption

図3: タスク関連性の高い勾配と低い勾配の比較。報酬のばらつきが大きいプロンプト（上）では、タスクの勾配が優勢となり、モデルはタスクに適した応答を学習します。一方、報酬のばらつきが小さいプロンプト（下）では、正則化の勾配が優勢となり、モデルは入力に依存しないテンプレートに近づきます。

## Snr H3

### 3.1 経験的観察

### 3.2 勾配分解

### 3.3 SNRを考慮したフィルタリング

## Snr Figure5 Caption

図4： PPO (上) および GRPO (下) の報酬分散分位数分析 (Q1 = 低い報酬分散, Q6 = 高い報酬分散)。 報酬分散が増加すると: (a) 報酬分散が急速に増加し、(b) タスク勾配のノルムが比例して増加するが、(c) 正則化勾配のノルムはほぼ一定に保たれる。 これは、低い報酬分散のプロンプトが、主要な信号対雑音比 (SNR) を支配していることを確認する。

## Snr Gradient

### タスクの勾配は、プロンプトの実行における報酬の分散に比例します。報酬の分散がほぼゼロの場合（すべての実行で同じ報酬が得られる場合）、タスクの勾配は消失し、正則化勾配のみが重みの更新を駆動します。

## Snr Snr Definition

SNR（信号対雑音比）は、タスク勾配の大きさに対する正則化勾配の大きさの比として定義されます。低-RV（低参照値）プロンプトでは、SNR ≪ 1 となり、これは正則化が優勢であることを意味します。正則化項（参照からのKL発散）は、モデルをすべての入力における平均的な振る舞い、つまり入力に依存しないテンプレートへと誘導します。

## Snr Algorithm Step1

### プロンプトごとにSample N回の試行を行い、報酬を評価します。

## Snr Algorithm Step2

### プロンプトごとの報酬変動 (RV) を計算します。プロンプトを RV の降順でソートします。

## Snr Algorithm Step3

### 最も高いRV（報酬価値）を持つプロンプトから順に選択し、累積サンプル数がバッチのTop-P割合に達するまで繰り返します。このとき、選択されたプロンプトのみを使用して勾配更新を行います。

## Snr Figure6 Caption

図5： SNR-Awareフィルタリングアルゴリズムの可視化。プロンプトAはRV=9.0（高い）、プロンプトBはRV=1.0（低い）、プロンプトCはRV=5.0（中）。Top-Pフィルタリング後、低RVのプロンプトBは除外され、AとCのみが勾配の更新に寄与します。

## Experiments H3

### 4.1 評価テストベッド

### 4.2 テンプレートの崩壊：一貫した故障モードとして

### 4.3 SNR（信号対雑音比）を考慮したフィルタリングは、常にパフォーマンスを向上させます。

## Experiments Env

### パズル計画

### 数学的推論。

### ウェブナビゲーション

### コード実行

## Experiments Figure7 Caption

図6 (SearchQA): Top-Pフィルタリング、エントロピー正則化、KL正則化、およびフィルタリングなしの学習曲線比較。 (a) 成功率、(b) 検索精度、(c) 推論エントロピー。 Top-Pフィルタリングは、高い性能を維持しながら健全なエントロピーを保ちます。 エントロピーおよびKL正則化のみでは、性能の低下を防ぐことはできません。

## Experiments Figure9 Caption

図8: 学習中の、複数の環境における出力長の経時変化。テンプレートの崩壊（フィルタリングなし）条件下では、出力長が特徴的な急激な低下を示すことがあり、これはモデルが短い、固定されたテンプレートへの応答に収束することを示しています。SNR-Aware Filtering (Top-P) は、出力長を一定に保ちます。

## Experiments Figure8 Caption

図7： 全4つの環境（Sokoban, SearchQA, WebShop, DeepCoder）における成功率の比較。青色はTop-Pフィルタリング、緑色はTop-Kフィルタリング、灰色破線はフィルタリングなしを示しています。Top-Pフィルタリングは、すべての環境において最も高い、または同等の性能を達成しています。特に、SokobanとWebShopにおいて、その差が顕著です。

## Analysis H3

### 5.1 MI（心筋梗塞）の診断精度は、エントロピーよりも優れている。

### 5.2 どのような場合にフィルタリングが役立つのか？

### 5.3 トレーニングの動向

### 5.4 MI（Multi-Instance Learning）とタスク解決の散布図

## Analysis

### タスクの成功度合いを評価するために、著者らは、各指標と、複数の学習試行における最終的なタスク成功率との間のSpearmanの順位相関係数を計算しています。その結果は驚くべきものでした。

エントロピー指標とタスクの成功率の負の相関関係は、本論文の中核となる実験結果です。 エントロピーは単に情報を提供しないだけでなく、積極的に誤った情報を与えます。 高いエントロピーは、トレーニングの失敗と同時に発生する可能性があり、そのため、危険な監視指標となります。トレーニングの問題を検出するためにエントロピーのみに依存する専門家は、実際には最も深刻な種類の失敗を見逃す可能性があります。

SNR（信号対雑音比）を考慮したフィルタリングは、学習においてある程度の確率性が存在する場合に最も効果的です。つまり、報酬信号が不確実で、試行ごとに変動する場合に有効です。著者らは、さまざまな確率レベル（0～100%）での性能を評価しました。

この結果は理論的な根拠に基づいています。報酬が完全に決定論的な場合、すべてのプロンプトはRV=0（モデルがすでに収束している）か、高いRV（まだ学習中）のいずれかになります。この場合、フィルタリングは容易になります。最適なのは、部分的に確率的な環境です。これは、現実的なマルチステップエージェントの学習におけるまさにその条件です。

詳細な分析から、フィルタリングが学習のプロセスにどのように影響を与えるかが明らかになります。フィルタリングなしでは、学習が進むにつれて、分散がゼロ（ZV: zero-variance）のプロンプトの数が増加し、モデルが決定論的なテンプレートに収束してしまいます。一方、Top-Pフィルタリングを使用すると、ZVプロンプトが積極的に除外され、学習全体を通して高品質な勾配信号が維持されます。

個々の実行における散布図は、この相関関係を確認しています。高いMI（MI-ZScoreで測定）を持つ実行は、高いタスク解決率でグループ化される一方、低いMIを持つ実行は、下部にグループ化されます。条件付きエントロピーは、そのようなパターンを示さず、これはMIの診断能力の優位性を裏付けています。

重要な実用的な意味合いとして： MI-ZScoreは、リアルタイムでのトレーニング監視ツールとして機能する 。トレーニング中にMI-ZScoreが低下し始めた場合、それはテンプレートがすぐに崩壊する可能性を示す、信頼性の高い早期警告サインです。これは、エントロピーの低下や出力長の変更よりも信頼性が高いと言えます。

## Analysis Figure10 Caption

図9: 診断指標とタスク成功率の間のSpearmanの相関係数。MIに基づく指標（青色）は、強い正の相関を示しており、MI-ZScoreは+0.39に達しています。エントロピーに基づく指標（オレンジ色）は、負の相関（-0.11から-0.14）を示しており、これはそれらが 逆に関係している ことを示しています。

## Analysis Figure11 Caption

図10： 成功率 vs. 確率的要素の割合（0% = 決定論的、100% = 完全ランダムな報酬）。Top-Pフィルタリングは、5～50%の確率的要素の割合において最も大きな効果を発揮します。0%（決定論的）の場合、両方の手法は同様の性能を示します。80～100%（ほぼランダム）の場合、性能差は再び縮小します。

## Analysis Figure12 Caption

図11 (Sokoban): Top-P、Top-K、およびフィルタリングなしの学習ダイナミクス。(a) 維持率 (kept ratio)、(b) ゼロバリアンス数 (zero-variance count)、(c) 報酬の分散 (reward variance)、(d) 成功率 (success rate)。Top-Pフィルタリングは、良好な維持率を維持しながらZVの増加を抑制し、これは最終的な成功率の向上に直接関連しています。

## Analysis Figure13 Caption

図12： トレーニング中（初期/中期/後期）のプロンプトレベルでの報酬とRV（Reward Variance）の推移を示すヒートマップ。トレーニングが進むにつれて、プロンプトは高いRV（健全な学習）のクラスターと低いRV（学習の停滞）のクラスターに分かれる。テンプレートの崩壊は、モデルがほぼ決定的なポリシーに到達しているプロンプトに優先的に影響する。

## Analysis Figure14 Caption

図13： MI（左）と条件付きエントロピー（右）と、タスク解決率との散布図。各点は、1つのチェックポイントにおける1回のトレーニング実行を表しています。MIは明確な正の相関を示し、条件付きエントロピーは相関を示しません。これは、MIがモニタリング指標として優れていることを示しています。

## Analysis Figure15 Caption

図14： エントロピー係数、KL係数、およびTop-P比を比較したハイパーパラメータ感度スイープ。RVフィルタースイープ（SNR-Aware Filtering）は、パラメータ値に関わらず、一貫して成功率の向上につながる軌跡を生み出します。一方、エントロピーおよびKLスイープは一貫しない方向を示しており、このことがフィルタリング手法の堅牢性を示しています。

## Conclusion H2

### 結論と限界

## Conclusion Takeaway1 H3

### テンプレートの陳腐化は現実である。

## Conclusion Takeaway1

エージェントベースの強化学習における、形式的に定義された故障モードであり、エージェントが入力に依存しない応答を生成し、その応答はエントロピー指標では検出できない。この現象は、計画、数学、ウェブ、コードの4つの環境において、PPOとGRPOの両方で一貫して観察された。

## Conclusion Takeaway2 H3

### MIは、エントロピーよりも優れた性能を発揮します。

## Conclusion Takeaway2

相互情報量 (MI-ZScore) は、タスクの成功率と +0.39 の Spearman 相関を示すのに対し、エントロピーは −0.14 となり、エントロピーは訓練の健全性モニタとして効果がないだけでなく、誤解を招く可能性があることがわかります。

## Conclusion Takeaway3 H3

### SNR（信号対雑音比）を考慮したフィルタリングが有効です。

## Conclusion Takeaway3

シンプルな、勾配レベルでの介入方法——つまり、勾配更新の前に、報酬のばらつきが小さいプロンプトをフィルタリングすること——は、テストされたすべての環境において、わずかな計算コストで一貫してパフォーマンスを向上させます。

## Conclusion Limitations H3

### 制限事項

## Conclusion Limitation

### SNR（信号対雑音比）を考慮したフィルタリングは、報酬の分散を計算するために報酬信号を必要とします。したがって、報酬がない環境や、純粋な模倣学習の設定では適用できません。

このフィルタリング手法は、計算負荷を増加させます（RVの推定には、1つのプロンプトに対してN回の試行が必要となり、そのために計算資源を消費します）。また、有効なバッチサイズを減少させる可能性があり、これにより、特定の状況下では収束が遅くなる可能性があります。

### 実験は、テキストベースの環境に焦点を当てています。マルチモーダルエージェント（視覚、音声）への拡張や、連続的なアクション空間への対応は、今後の課題です。

## Related Work H2

### 関連研究

## Related Work Summary

### 関連研究の詳細

## Related Work Group1 H3

### 合理性の崩壊と政策の陳腐化.

## Related Work Group1

強化学習エージェントにおけるポリシー崩壊に関する先行研究（RAGEN-1、エントロピー崩壊の研究、および報酬ハッキングに関する文献を含む）は、強化学習によって訓練されたエージェントが、単純で反復的なポリシーに陥る可能性があることを示しました。RAGEN-2は、この研究を大規模言語モデル（LLM）の推論コンテキストに拡張し、MI（Mutual Information、相互情報量）に基づく診断を用いて、テンプレート崩壊の最初の形式的な特徴付けを提供します。

## Related Work Group2 H3

### マルチターンエージェント強化学習の安定化.

## Related Work Group2

強化学習（RL）の学習を安定化させるために、エントロピー正則化、KLダイバージェンスペナルティ、カリキュラム学習などの手法が提案されてきました。RAGEN-2は、これらの手法がテンプレートの崩壊を防ぐことができない場合があることを示しており、SNRメカニズムは、より原理的な説明と解決策を提供します。関連研究：PPO (Schulman et al. 2017), GRPO (Shao et al. 2024), DeepSeek-R1 (Guo et al. 2025).

## Related Work Group3 H3

### Human Feedbackによる強化学習 (RL).

## Related Work Group3

RLHF (Christiano et al. 2017, Ouyang et al. 2022, Ziegler et al. 2019)においても、報酬の不正利用やシステムの崩壊といった現象が確認されています。SNR-Aware Filteringの知見は、プロンプトごとの報酬のばらつきが系統的に異なるRLHFの設定にも応用できる可能性があります。

## References H2

### 参考文献

## References Summary

以下の文章を日本語に翻訳してください。固有名詞、人名、所属、組織名は原文のままにします。HTMLタグはすべてそのまま記述してください（例：**bold** は誤りです。代わりに bold を使用します）。翻訳のみを出力し、それ以外のものは記述しないでください。 Expand References