arXiv:2604.11297 · 2026年4月

過去は過去ではない：記憶強化型動的報酬整形

楊柳 (Yang Liu)、王恩熙 (Enxi Wang)、高玉飛 (Yufei Gao)、張維信 (Weixin Zhang)、王博 (Bo Wang)、曾志遠 (Zhiyuan Zeng)、張逸凱 (Yikai Zhang)、鄭宜寧 (Yining Zheng)、邱錫鵬 (Xipeng Qiu)

復旦大学・上海イノベーション研究所・OpenMOSS

大規模言語モデルに対する強化学習の成功にもかかわらず、一般的な問題点としてサンプリングの多様性の低下が挙げられます。これは、ポリシーが繰り返し類似した誤った動作を生成する状況です。従来のエントロピー正則化はランダム性を促進しますが、ロールアウト全体にわたる反復的な失敗パターンを明示的に抑制することはありません。そこで、我々はMEDS、すなわち、Memory-Enhanced Dynamic reward Shapingという、過去の行動シグナルを報酬設計に組み込むフレームワークを提案します。中間モデルの表現を保存し活用することで、過去のロールアウトの特徴を捉え、密度ベースのクラスタリングを用いて頻繁に繰り返されるエラーパターンを特定します。より一般的なエラークラスタに割り当てられたロールアウトは、より厳しいペナルティを受け、これにより広範な探索を促し、同時に繰り返し発生する間違いを減らします。

+4.13 pass@1 改善

+4.37 pass@128 の改善

5 テストされたベンチマーク

arXivで読む ↗ GitHub でコードを表示する ↗

はじめに

大規模言語モデル (LLMs) の基本的な機能の進歩に伴い、強化学習は様々な分野で目覚ましい成果を上げています。ルールベースの評価やプロキシモデルなどから得られる報酬信号を取り込むことで、LLMs はサンプリング段階と、勾配ベースの最適化段階を繰り返します。モデルの性能が、期待される報酬の最大化に向けて最適化されるにつれて、報酬の評価構造を設計することが、モデルの挙動を誘導するための主要な手段となります。

根本的な問題点： 強化学習の訓練が進むにつれて、ポリシーがしばしば狭く、固定的な一連の行動に陥ることがあります。この劣化は、オンポリシーのサンプルを無駄にする、非常に反復的な応答を引き起こし、モデルを自己強化的な誤った推論経路に固定してしまいます。従来のエントロピー正則化は、分布レベルでランダム性を促進しますが、反復的な行動パターンという根本的な問題に対処することはできません。

エントロピー正則化とは？

強化学習において、エントロピー正則化は、「ランダム性」に対してボーナスを与える手法です。これは、数学の問題を解く際に、常に同じ方法を使うのではなく、さまざまなアプローチを試みる学生に対して、先生が追加の評価を与えるようなものです。問題点は、このランダム性が単語レベルで行われることです。つまり、モデルはどの単語を選ぶかを変えるかもしれませんが、その下では同じような誤った推論戦略を使っている可能性があります。これは、間違った答えを実際に別の解法を試みる代わりに、単に単語の順序を入れ替える学生のようなものです。

課題は、分布レベルでの確率的探索が、真に新しい戦略を発見するランダム性と、同じ失敗したアプローチの組み合わせを試すだけのランダム性を区別できないことが多いという点です。モデルが多様なトークンをサンプリングしたとしても、依然として同一の誤った推論経路に従う可能性があります。例えば、表面上のテキストは変化しているにもかかわらず、問題を繰り返し誤解したり、間違った数式を適用したりすることがあります。

MEDSは、この課題を、トークンの分布レベルではなく、行動パターンレベルで動作することで解決します。MEDSは、一般的なランダム性を促進するのではなく、ロールアウト全体で繰り返される特定の誤りパターンを特定し、それらをペナルティとして課すことで、モデルが真に異なる推論戦略を試すように直接的にインセンティブを与えます。

Figure 1: Error collapse and MEDS overview — **図1:** (a) 強化学習（RL）のトレーニング中、初期段階では多様な応答が生じますが、後続の段階では反復的なエラーパターンに陥ります。(b) MEDSは、メモリベースのクラスタリングを使用して、共通の潜在的な生成を特定し、報酬整形によるペナルティを適用します。(c) ステップ内での多様性を示す指標は、MEDSがDAPOと比較して、常にサンプリングの多様性を向上させることを示しています。

方法

MEDSフレームワークは、標準的な強化学習に、頻繁に発生するエラーパターンをターゲットとする、メモリベースのペナルティを追加します。入力 \(x \sim \mathcal{D}\) が与えられたとき、LLMポリシー \(\pi_\theta\) は、応答 \(y \sim \pi_\theta(y|x)\) を生成します。標準的なRLの目的は、期待される報酬 \(\mathbb{E}[r(x,y)]\) を最大化することです。MEDSは、この報酬関数を修正し、形状化された報酬を導入します。その式は \(r_s(x,y) = r(x,y) - \text{penalty}(c_i)\) であり、\(c_i\) は、応答の行動パターンに基づいたクラスタ割り当てです。

なぜモデル自身の内部信号を利用するのか？

LLMがテキストを生成する際、単に単語を生成するだけでなく、各ステップで考えられるすべての次のトークンに対する確率分布を内部的に計算しています。これらの内部信号（logits）は、モデルの「思考プロセス」のようなものです。MEDSは、これらの信号を、各応答の推論戦略の指紋として利用します。数学の問題を解く2人の学生を考えてみましょう。彼らの書き出した答えが表面上異なって見える場合でも、もし彼らが同じ概念的な誤りを犯しているのであれば、彼らの内部的な推論パターンは似ているはずです。MEDSは、まさにこれを捉えています。モデルがどのように考えているか（how）に基づいて応答をグループ化し、単にモデルが何を書いているか（what）というだけでなく、その思考プロセスを考慮しているのです。

Figure 2: MEDS framework architecture — **図2:** MEDSフレームワークは、3つのモジュールで構成されています。(A) Logic Feature Extractionは、中間モデル表現から推論特徴を抽出します。(B) Memory-based Clusteringは、HDBSCANを使用して、メモリバッファから類似したエラーパターンをグループ化します。(C) Reward Shapingは、クラスタサイズに基づいたペナルティを適用し、反復的なエラーを抑制します。

反復発生するエラーに対するペナルティを科すことの理論的な利点

標準的な報酬関数 \(r(x,y)\) を用いると、更新されたポリシー \(q_1\) は、収益を最大化するパターンに収束します。一方、誤差クラスタへのペナルティ \(r(x,y) - \lambda c(y)\) を導入することで、修正されたポリシー \(q_2\) は、確率質量を大きな誤差クラスタから分散させるように、数学的に証明されて促進されます。

主要な理論的結果（定理2）は、形状化された報酬の下で、更新されたポリシー\(q_2\)が、期待される性能を維持しながら、より高いエントロピー\(H(q_2) \geq H(q_1)\)を達成することを示しています。これは、MEDSが品質を犠牲にすることなく、探索の多様性を確実に向上させることを意味します。

定理 2 (非公式): \(q_1\) と \(q_2\) を、それぞれ元の報酬関数 \(r(x,y)\) と、形状化された報酬関数 \(r(x,y) - \lambda c(y)\) の下で更新されたポリシーとします。このとき、\(H(q_2) \geq H(q_1)\) となり、これは形状化された報酬が、証明に基づき、出力の多様性を確実に増加させることを意味します。

この定理は、実際にどのような意味を持つのでしょうか？

定理2は、MEDSが意図したとおりに機能することを数学的に保証するものです。平たく言うと：最も一般的なエラーパターンに対してペナルティを科すことで、モデルは確実に、より多様な戦略を試すように強制されます

ロジック特徴抽出

指標関数 \(c(y)\) を実装するために、MEDS はモデル自身の内部表現を直接活用します。ポリシーによって生成される各応答 \(y\) に対して、この方法は特定の内部層から logit ベクトル を収集します。これらのベクトルは、例えばシーケンス内の位置に関する平均プーリングによって、固定次元の特徴ベクトルに統合されます。この特徴ベクトルは、応答の推論ロジックを捉えます。このアプローチは、計算効率が高いという利点があります。なぜなら、これらの表現は標準的な順伝播計算中にすでに計算されており、追加の推論は不要だからです。

ロジットベクトルとは？

ロジットとは、言語モデルが次のトークンに対する確率を計算する前に算出する、生のスコアのことです。例えば、モデルが次にどの単語が来るかを判断する場合、"the" に対して 5.2 のスコア、"and" に対して 3.1 のスコア、"banana" に対して -1.7 のスコアを割り当てる可能性があります。これらのスコア（ロジット）は、モデルの内部的な嗜好性を反映しています。MEDS は、最終的な出力層ではなく、中間層からこれらの情報を収集することで、単なる表面的な単語の選択だけでなく、基盤となる推論ロジックを捉えようとしています。

クラスタベースの報酬整形

構築された応答表現に基づいて、MEDSはHDBSCAN（ノイズを含むアプリケーションの階層的密度ベース空間クラスタリング）を使用してクラスタの割り当てを計算します。メモリバッファは、過去の実行からの特徴ベクトルを格納します。各新しいバッチについて、この方法は以下の手順を実行します。

現在のバッチ内のすべての応答に対して、ロジット特徴量を抽出します。
現在の機能と、メモリバッファに保存されている機能を組み合わせます。
HDBSCANを実行し、類似したエラーパターンのクラスタを特定します。
クラスタのサイズに比例したペナルティを計算します。クラスタが大きいほど（より頻繁なエラーパターンが見られるほど）、高いペナルティが与えられます。

最終的な報酬は次のようになります: \(r_s(x,y) = r(x,y) - \text{penalty}(c_i)\)、ここで、ペナルティ関数は割り当てられたクラスタのサイズとともに増加し、最も一般的な故障モードに対して直接的な圧力をかけます。

HDBSCANとは何か、そしてなぜそれを使うのか？

HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) は、データポイントを、それらがどれだけ密集しているかに基づいてグループ化するクラスタリングアルゴリズムです。 K-meansとは異なり、HDBSCANは事前にクラスタの数を指定する必要がなく、クラスタを自動的に発見し、"ノイズ"（どのパターンにも適合しない応答）を処理できます。これは、MEDSにとって理想的です。なぜなら、(1) エラーパターンが事前にいくつ存在するかを知ることができない、(2) 一部の応答は本当にユニークであり、クラスタに無理やり組み込むべきではない、(3) エラーパターンは特徴空間において不規則な形状を持つ可能性がある、という理由からです。

主な結果

表1は、3つのベースモデルと5つの数学的推論ベンチマークにおける性能をまとめたものです。MEDSは、一貫して最も高い平均性能を示し、異なるレベルの事前数学的訓練を受けたモデル間で優れた汎化性能を発揮することを示しています。

Table 1: Main results — **表1：** 5つのベンチマークにおけるPass@1およびpass@128のスコア。MEDSは、すべてのベースモデルにおいて最高の平均スコアを達成し、最も優れたベースラインと比較して、Pass@1で最大+4.13、pass@128で最大+4.37の改善が見られました。

あらゆる設定において、MEDSは最も高い平均的なpass@1およびpass@128のスコアを実現します。特に、AIME24やOlympiadBenchといった、多様な推論戦略が重要となる難易度の高いベンチマークにおいて、その改善効果は顕著です。注目すべきは、pass@1（最良の単一試行）とpass@128（128回の試行の中で最良のもの）の両方において、MEDSが改善をもたらしている点であり、これはMEDSが生成される解決策の品質と幅の両方を向上させることを示しています。

pass@1 と pass@128 は何を意味するのか？

pass@k は、生成された k 個の解のうち、少なくとも 1 つが正しい確率を測る指標です。pass@1 は、1 回の試行の精度を示し、試験問題に対して 1 回のチャンスがあるのと同じです。pass@128 は、モデルに 128 回の試行を与え、そのいずれかが正しいかどうかを確認します。 pass@1 を改善することは、モデルの最良の推測がより正確になることを意味し、pass@128 を改善することは、モデルがより広い範囲の戦略を試すことを意味します。 MEDS は、両方を改善し、モデルが問題解決においてより賢く、より創造的になることを示しています。

Figure 4: Pass@k curves — **図4：** 5つのベンチマークと3つのベースモデルにおけるPass@kの性能曲線。MEDS（赤色）は、すべてのベースラインモデルよりも、k値の全範囲にわたって一貫して優れた性能を示しており、特にk値が小さい範囲において、サンプリングの多様性が最も重要となる場合に、その差が最も大きくなっています。

探査行動への影響

推論プロセスにおいて、MEDSがモデルの探索にどのように影響を与えるかを理解するために、行動学的および表現論的な観点から詳細な分析を実施しました。Claude-Haiku-4.5をプロキシアノテーターとして使用し、サンプリングされた応答のセマンティックな多様性を評価しました。MEDSは多様性スコア61.2を達成し、これはDAPO（45.16）およびGRPO w/ Entropy Adj.（52.52）よりも大幅に高い数値です。

Method	Diversity Score
DAPO	45.16
GRPO w/ Entropy Adj.	52.52
MEDS-v1	54.71
MEDS-v2	53.87
MEDS (Full)	61.2

表現の観点から、我々はTop-1 Eigen Ratio—出力空間における表現の収束度合いを示す指標—を分析します。高い比率を示すことは、モデルの出力がより少ない次元に集中していることを意味し、多様性の低下を示唆します。MEDSは、トレーニング全体を通して一貫して低いeigen ratioを維持しており、これはMEDSが根本レベルで表現の多様性を維持していることを裏付けています。

トップ1固有比率の理解

「Top-1 Eigen Ratio」は、モデルの出力が表現空間において、どれだけ単一の方向に集中しているかを測る指標です。モデルの出力を、高次元空間における矢印だと想像してください。もしすべての矢印がほぼ同じ方向を向いている場合、固有比率は高くなります（1.0に近い）。これは、モデルが多様性を失っている状態、つまり表現の収束を示しています。一方、比率が低い場合は、矢印が多くの方向に広がり、多様な推論戦略を示唆しています。MEDSは、トレーニング期間中、この比率をDAPOよりも低く保つように設計されており、これによりモデルが多様な思考能力を維持できるようにします。

Figure 5: Top-1 Eigen Ratio — **図5:** 学習中のTop-1固有値比。値が低いほど、表現の収束が少ないことを示します。MEDS (オレンジ) は、DAPO (青) よりも常に低い固有値比を維持しており、これは学習全体を通して、より優れた表現の多様性の維持を示しています。

Logitsは推論パターンを反映する

MEDSの基本的な前提は、中間層からのlogitベクトルが、単なる表面的なトークン予測だけでなく、その背後にある論理的な推論構造を捉えているということです。私たちは、定性的な事例研究と大規模な定量分析の両方を通じて、これを検証します。同じ問題に対する異なる応答のlogit表現は、意味的に意味のある推論戦略（正しいアプローチと間違ったアプローチ）に対応する、異なるクラスターを形成します。

t-SNE可視化とは？

t-SNE（t-distributed Stochastic Neighbor Embedding）は、高次元データを2次元で可視化するための手法です。複雑な3次元の彫刻を、その構造が最もよく見える角度から撮影するとイメージしてください。図中の各点は、モデルの応答それぞれを表しており、内部的な推論パターンが類似している応答は、近くに配置されます。明確なクラスタが形成されるという事実は、ロジット特徴が単なるランダムノイズではなく、異なる推論戦略を真に捉えていることを示しています。

Figure 3: t-SNE logit visualization — **図3:** 3つの数学の問題に対する応答表現を、logit空間でt-SNEを用いて可視化した図。異なる推論パターンが、それぞれ異なるクラスタを形成している。大きな円は、より頻繁なパターン（MEDSがペナルティを与える可能性のあるエラーのクラスタ）を示している。明確な分離は、logit特徴が推論の論理を効果的に捉えていることを示している。

Logitsは、正しいクラスタリング信号を提供します

大規模な検証を行うために、ランダムに選択された回答の推論戦略をラベル付けするために、Claude-Haiku-4.5をプロキシアノテーターとして使用しました。このアノテーションの手順により、logitベースのクラスタが意味的に一貫した推論パターンに対応していることが確認されました。同じクラスタに含まれる回答は、正しい答えに到達しているかどうかに関わらず、同じ推論アプローチに従う傾向があります（例：素因数分解を試みる vs. 試し割り）。

Figure 6: Case study — **図6:** ある数論の問題の事例研究（2022に合計する3つの異なる約数を持つ最小の整数を見つける）。クラスターAには、共通の誤りパターン（約数の構造の理解不足）を示す回答が含まれています。一方、クラスターBには、素因数分解を用いた正しい推論が含まれています。ロジットに基づくクラスタリングは、これらの異なる戦略を効果的に分離します。

アブレーションスタディ

我々は、様々な特徴量構築方法とクラスタリング手法が性能にどのように影響するかを調査します。アブレーション実験では、ランダムなクラスタ割り当て（コントロール）、意味的な特徴量（モデルのテキスト出力から取得）、および様々なクラスタリングアルゴリズムを用いたロジット特徴量を比較します。結果から、クラスタリングの品質が大きく影響することが示されました。ロジットベースの特徴量とHDBSCANの組み合わせが最も優れた性能を示し、一方、ランダムなクラスタリングや意味的な特徴量は著しく劣ることが分かりました。

なぜクラスタリングの品質がこれほど重要なのでしょうか？

MEDSが応答をランダムにクラスタリングする場合（実際の思考パターンを無視してペナルティを課す場合）、そのペナルティは意味のないノイズとなり、良い応答を悪い応答と同じくらい損なう可能性があります。もし、MEDSが表面的なテキストの特徴のみを使用する（意味的クラスタリング）場合、見た目が似ていても、実際には異なる思考戦略を使用している応答をグループ化してしまう可能性があります。見た目が似ていても、実際には異なる思考戦略を使用している応答をグループ化してしまう可能性があります。ロジットベースの特徴のみが、その背後にある思考の論理を捉え、HDBSCANが真に共通するエラーパターンに対応するクラスタを形成することを可能にします。そのため、MEDSの完全な構成は、ランダムなベースラインや意味的ベースラインよりも大幅に優れた性能を発揮します。

Table 3: Ablation study — **表3:** 異なる特徴抽出方法とクラスタリングアルゴリズムを比較したアブレーションスタディの結果。MEDSのフル構成（logit特徴量 + HDBSCAN）が最も優れた性能を発揮し、両方のコンポーネントの重要性が検証されました。

参考文献 (45件)

Shao et al. DeepSeekMath: Pushing the limits of mathematical reasoning in open language models. 2024.
Dou et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. 2025.
Shojaee et al. Execution-based code generation using deep reinforcement learning. Trans. Mach. Learn. Res., 2024.
Ouyang et al. Training language models to follow instructions with human feedback. NeurIPS, 2022.
Swamy et al. All roads lead to likelihood: The value of reinforcement learning. 2025.
Yu et al. DAPO: Dynamic asynchronous policy optimization. 2025.
Sinha et al. Expected return causes outcome-level mode collapse in reinforcement learning. 2025.
Chen et al. EEPO: Exploration-enhanced policy optimization. COLING, 2025.
Zhu et al. The surprising effectiveness of negative reinforcement in LLM reasoning. 2025.
Haarnoja et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning. ICML, 2018.
Wan et al. DSDR: Dual-scale diversity regularization. 2025.
Mnih et al. Asynchronous methods for deep reinforcement learning. ICML, 2016.
Holroyd & Coles. The neural basis of human error processing. Psychological Bulletin, 2002.
McInnes et al. HDBSCAN: Hierarchical density based clustering. JOSS, 2017.
OpenAI. OpenAI o1 system card. 2024.
Zhu et al. 2025.
Zhang et al. Thinking with video. 2025.
Chen et al. Learning only with images. 2025.
Zhang et al. REARANK: Reasoning re-ranking agent via reinforcement learning. NAACL, 2025.
Lightman et al. Let's verify step by step. ICLR, 2024.
Uesato et al. Solving math word problems with process- and outcome-based feedback. 2022.
Schulman et al. Proximal policy optimization algorithms. 2017.
Hu et al. Rewarding progress: Scaling automated process verifiers. 2025.
Song et al. Outcome-based exploration for LLM reasoning. 2025.
Li et al. Auto MC-Reward: Automated dense reward design. 2024.
Yao et al. Multi-objective evolution of heuristic using LLM. ACL, 2025.
Qu et al. Latent reward: LLM-empowered credit assignment. 2025.
Hazra et al. REVOLVE: Reward evolution with large language models. 2025.
Ma et al. Eureka: Human-level reward design via coding LLMs. ICLR, 2024.
Meng et al. Locating and editing factual associations in GPT. NeurIPS, 2022.
Templeton et al. Scaling monosemanticity. Anthropic, 2024.
Olsson et al. In-context learning and induction heads. Trans. Mach. Learn. Res., 2022.
He et al. Towards understanding the nature of attention. 2025.
He et al. 2025.
Zhao et al. Verifying chain-of-thought reasoning. 2025.
Tan et al. Bottom-up policy optimization. 2025.
Cheng et al. 2025.
Hendrycks et al. Measuring mathematical problem solving with the MATH dataset. NeurIPS, 2021.
Liu et al. Understanding R1-zero-like training. 2025.
Sheng et al. HybridFlow: A flexible and efficient RLHF framework. 2025.
Cheng et al. Reasoning with exploration: An entropy perspective. 2025.
Li et al. Open R1. 2025.
Lewkowycz et al. Solving quantitative reasoning problems with language models. NeurIPS, 2022.
He et al. OlympiadBench: A challenging benchmark for evaluating mathematical olympiad reasoning. 2024.
van der Maaten & Hinton. Visualizing data using t-SNE. JMLR, 2008.

過去は過去ではない：記憶強化型動的報酬整形