---
arxiv_id: 2604.11297
title: "過去は過去ではない：記憶を活用した動的な報酬形状化"
authors:
  - Yang Liu
  - Enxi Wang
  - Yufei Gao
  - Weixin Zhang
  - Bo Wang
  - Zhiyuan Zeng
  - Yikai Zhang
  - Yining Zheng
  - Xipeng Qiu
difficulty: Advanced
tags:
  - Reinforcement Learning
  - LLM Training
  - Reward Shaping
  - Mathematical Reasoning
published_at: 2026-04-13
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.11297/
lang: ja
---

> 過去は過去ではない：記憶強化型動的報酬整形

**著者**: 楊柳 (Yang Liu)、王恩熙 (Enxi Wang)、高玉飛 (Yufei Gao)、張維信 (Weixin Zhang)、王博 (Bo Wang)、曾志遠 (Zhiyuan Zeng)、張逸凱 (Yikai Zhang)、鄭宜寧 (Yining Zheng)、邱錫鵬 (Xipeng Qiu)

## Introduction

### はじめに

大規模言語モデル (LLMs) の基本的な機能の進歩に伴い、強化学習は様々な分野で目覚ましい成果を上げています。ルールベースの評価やプロキシモデルなどから得られる報酬信号を取り込むことで、LLMs はサンプリング段階と、勾配ベースの最適化段階を繰り返します。モデルの性能が、期待される報酬の最大化に向けて最適化されるにつれて、報酬の評価構造を設計することが、モデルの挙動を誘導するための主要な手段となります。

根本的な問題点： 強化学習の訓練が進むにつれて、ポリシーがしばしば狭く、固定的な一連の行動に陥ることがあります。この劣化は、オンポリシーのサンプルを無駄にする、非常に反復的な応答を引き起こし、モデルを自己強化的な誤った推論経路に固定してしまいます。従来のエントロピー正則化は、分布レベルでランダム性を促進しますが、 反復的な行動パターン という根本的な問題に対処することはできません。

課題は、分布レベルでの確率的探索が、真に新しい戦略を発見するランダム性と、同じ失敗したアプローチの組み合わせを試すだけのランダム性を区別できないことが多いという点です。モデルが多様なトークンをサンプリングしたとしても、依然として同一の誤った推論経路に従う可能性があります。例えば、表面上のテキストは変化しているにもかかわらず、問題を繰り返し誤解したり、間違った数式を適用したりすることがあります。

MEDSは、この課題を、トークンの分布レベルではなく、 行動パターンレベル で動作することで解決します。MEDSは、一般的なランダム性を促進するのではなく、ロールアウト全体で繰り返される特定の誤りパターンを特定し、それらをペナルティとして課すことで、モデルが真に異なる推論戦略を試すように直接的にインセンティブを与えます。

図1: (a) 強化学習（RL）のトレーニング中、初期段階では多様な応答が生じますが、後続の段階では反復的なエラーパターンに陥ります。(b) MEDSは、メモリベースのクラスタリングを使用して、共通の潜在的な生成を特定し、報酬整形によるペナルティを適用します。(c) ステップ内での多様性を示す指標は、MEDSがDAPOと比較して、常にサンプリングの多様性を向上させることを示しています。

## Experiments

### 実験セットアップ

### ベースモデル

### ベンチマーク

### ベースライン

### トレーニング詳細

### Adam optimizer、学習率 1e-6

### 重み減衰: 0.1, 勾配クリッピング: 1.0.

### 10個のウォームアップステップ、バッチレベルでの報酬整形.

## Results

### 主な結果

表1は、3つのベースモデルと5つの数学的推論ベンチマークにおける性能をまとめたものです。MEDSは、一貫して最も高い平均性能を示し、異なるレベルの事前数学的訓練を受けたモデル間で優れた汎化性能を発揮することを示しています。

表1： 5つのベンチマークにおけるPass@1およびpass@128のスコア。MEDSは、すべてのベースモデルにおいて最高の平均スコアを達成し、最も優れたベースラインと比較して、Pass@1で最大+4.13、pass@128で最大+4.37の改善が見られました。

あらゆる設定において、MEDSは最も高い平均的なpass@1およびpass@128のスコアを実現します。特に、AIME24やOlympiadBenchといった、多様な推論戦略が重要となる難易度の高いベンチマークにおいて、その改善効果は顕著です。注目すべきは、pass@1（最良の単一試行）とpass@128（128回の試行の中で最良のもの）の両方において、MEDSが改善をもたらしている点であり、これはMEDSが生成される解決策の品質と幅の両方を向上させることを示しています。

図4： 5つのベンチマークと3つのベースモデルにおけるPass@kの性能曲線。MEDS（赤色）は、すべてのベースラインモデルよりも、k値の全範囲にわたって一貫して優れた性能を示しており、特にk値が小さい範囲において、サンプリングの多様性が最も重要となる場合に、その差が最も大きくなっています。

## Conclusion

### MEDSは、過去の行動データを行動報酬設計に組み込むことで、LLM（大規模言語モデル）の推論における反復的なエラーパターンを効果的に抑制できることを示しています。この研究の主な貢献は以下の通りです。

### メモリを考慮した報酬整形： 過去の試行結果の特徴を、中間モデルの表現（logits）を通じて捉え、それらを用いて報酬信号を動的に整形するフレームワーク。

### 密度ベースのエラー検出： HDBSCANクラスタリングは、事前に定義されたエラーカテゴリを必要とせずに、頻繁に発生するエラーパターンを特定します。

### 動的ペナルティ: クラスターの発生頻率に比例するペナルティは、最も一般的な故障モードに対して直接的な圧力をかけます。

### 一貫した改善： 5つのベンチマークと3つのベースモデルにおいて、pass@1が最大+4.13、pass@128が最大+4.37の改善が見られました。

多様性の向上： LLM（大規模言語モデル）を用いたアノテーションと、定量的な指標（Top-1 Eigen Ratio）の両方から、MEDSがサンプリング中に顕著に行動的多様性を高めることが確認されています。

## References

### 参考文献 (45件)

## Head

### 過去は過去ではない：記憶を活用した動的な報酬形状化

## Related Work

### 関連研究

### 検証可能な報酬を用いた強化学習 (RL with Verifiable Rewards)

Verifiable Rewards (RLVR) を用いた強化学習は、ルールベースの評価によって報酬信号を提供し、反復的なポリシー最適化を可能にします。DeepSeekMath と関連研究は、数学的な推論において、結果に基づいた報酬を用いるこのアプローチを先駆的に開発しました。主な利点は、検証が決定論的であることです。つまり、数学的な答えは、正解か不正解のどちらかであり、学習された報酬モデルによるノイズを排除できるという点です。

### 多様性を促進するための報酬設計

RLVRのトレーニング中、ポリシーの更新は、支配的な解決策のパターンを過剰に最適化する傾向があり、それが推論の多様性の低下につながります。従来の解決策としては、エントロピー正則化（SAC、A3C）や、DAPOのような動的なサンプリング戦略などがあります。しかし、これらの方法はトークンの分布レベルで動作し、繰り返される 行動 パターンを特定して、それが示す反復的な推論エラーを直接的にターゲットにすることができません。

### LLMの内部思考

LLM（大規模言語モデル）が内部でどのように推論を行っているかを解釈するための研究—ロジットに基づく分析、プロービング手法、およびメカニスティックな解釈可能性など—は、MEDSにとって重要なインスピレーション源となっています。また、事実に基づいた関連性を特定する研究（ROME）、単一の意味性を拡張する研究、およびインコンテキスト学習に関する研究は、中間モデル表現が推論プロセスに関する豊富な意味情報を含むことを示しています。

## Method

MEDSフレームワークは、標準的な強化学習に、頻繁に発生するエラーパターンをターゲットとする、メモリベースのペナルティを追加します。入力 \(x \sim \mathcal{D}\) が与えられたとき、LLMポリシー \(\pi_\theta\) は、応答 \(y \sim \pi_\theta(y|x)\) を生成します。標準的なRLの目的は、期待される報酬 \(\mathbb{E}[r(x,y)]\) を最大化することです。MEDSは、この報酬関数を修正し、形状化された報酬を導入します。その式は \(r_s(x,y) = r(x,y) - \text{penalty}(c_i)\) であり、\(c_i\) は、応答の行動パターンに基づいたクラスタ割り当てです。

図2: MEDSフレームワークは、3つのモジュールで構成されています。(A) Logic Feature Extractionは、中間モデル表現から推論特徴を抽出します。(B) Memory-based Clusteringは、HDBSCANを使用して、メモリバッファから類似したエラーパターンをグループ化します。(C) Reward Shapingは、クラスタサイズに基づいたペナルティを適用し、反復的なエラーを抑制します。

### 反復発生するエラーに対するペナルティを科すことの理論的な利点

標準的な報酬関数 \(r(x,y)\) を用いると、更新されたポリシー \(q_1\) は、収益を最大化するパターンに収束します。一方、誤差クラスタへのペナルティ \(r(x,y) - \lambda c(y)\) を導入することで、修正されたポリシー \(q_2\) は、確率質量を大きな誤差クラスタから分散させるように、数学的に証明されて促進されます。

主要な理論的結果（定理2）は、形状化された報酬の下で、更新されたポリシー\(q_2\)が、期待される性能を維持しながら、より高いエントロピー\(H(q_2) \geq H(q_1)\)を達成することを示しています。これは、MEDSが品質を犠牲にすることなく、探索の多様性を確実に向上させることを意味します。

定理 2 (非公式): \(q_1\) と \(q_2\) を、それぞれ元の報酬関数 \(r(x,y)\) と、形状化された報酬関数 \(r(x,y) - \lambda c(y)\) の下で更新されたポリシーとします。このとき、\(H(q_2) \geq H(q_1)\) となり、これは形状化された報酬が、証明に基づき、出力の多様性を確実に増加させることを意味します。

### ロジック特徴抽出

指標関数 \(c(y)\) を実装するために、MEDS はモデル自身の内部表現を直接活用します。ポリシーによって生成される各応答 \(y\) に対して、この方法は特定の内部層から logit ベクトル を収集します。これらのベクトルは、例えばシーケンス内の位置に関する平均プーリングによって、固定次元の特徴ベクトルに統合されます。この特徴ベクトルは、応答の推論ロジックを捉えます。このアプローチは、計算効率が高いという利点があります。なぜなら、これらの表現は標準的な順伝播計算中にすでに計算されており、追加の推論は不要だからです。

### クラスタベースの報酬整形

構築された応答表現に基づいて、MEDSは HDBSCAN （ノイズを含むアプリケーションの階層的密度ベース空間クラスタリング）を使用してクラスタの割り当てを計算します。メモリバッファは、過去の実行からの特徴ベクトルを格納します。各新しいバッチについて、この方法は以下の手順を実行します。

### 現在のバッチ内のすべての応答に対して、ロジット特徴量を抽出します。

### 現在の機能と、メモリバッファに保存されている機能を組み合わせます。

### HDBSCANを実行し、類似したエラーパターンのクラスタを特定します。

### クラスタのサイズに比例したペナルティを計算します。クラスタが大きいほど（より頻繁なエラーパターンが見られるほど）、高いペナルティが与えられます。

最終的な報酬は次のようになります: \(r_s(x,y) = r(x,y) - \text{penalty}(c_i)\)、ここで、ペナルティ関数は割り当てられたクラスタのサイズとともに増加し、最も一般的な故障モードに対して直接的な圧力をかけます。

## Exploration

### 探査行動への影響

推論プロセスにおいて、MEDSがモデルの探索にどのように影響を与えるかを理解するために、行動学的および表現論的な観点から詳細な分析を実施しました。Claude-Haiku-4.5をプロキシアノテーターとして使用し、サンプリングされた応答のセマンティックな多様性を評価しました。MEDSは多様性スコア 61.2 を達成し、これはDAPO（45.16）およびGRPO w/ Entropy Adj.（52.52）よりも大幅に高い数値です。

表現の観点から、我々は Top-1 Eigen Ratio —出力空間における表現の収束度合いを示す指標—を分析します。高い比率を示すことは、モデルの出力がより少ない次元に集中していることを意味し、多様性の低下を示唆します。MEDSは、トレーニング全体を通して一貫して低いeigen ratioを維持しており、これはMEDSが根本レベルで表現の多様性を維持していることを裏付けています。

図5: 学習中のTop-1固有値比。値が低いほど、表現の収束が少ないことを示します。MEDS (オレンジ) は、DAPO (青) よりも常に低い固有値比を維持しており、これは学習全体を通して、より優れた表現の多様性の維持を示しています。

## Logits Analysis

### Logitsは推論パターンを反映する

MEDSの基本的な前提は、中間層からのlogitベクトルが、単なる表面的なトークン予測だけでなく、その背後にある論理的な推論構造を捉えているということです。私たちは、定性的な事例研究と大規模な定量分析の両方を通じて、これを検証します。同じ問題に対する異なる応答のlogit表現は、意味的に意味のある推論戦略（正しいアプローチと間違ったアプローチ）に対応する、異なるクラスターを形成します。

図3: 3つの数学の問題に対する応答表現を、logit空間でt-SNEを用いて可視化した図。異なる推論パターンが、それぞれ異なるクラスタを形成している。大きな円は、より頻繁なパターン（MEDSがペナルティを与える可能性のあるエラーのクラスタ）を示している。明確な分離は、logit特徴が推論の論理を効果的に捉えていることを示している。

### Logitsは、正しいクラスタリング信号を提供します

大規模な検証を行うために、ランダムに選択された回答の推論戦略をラベル付けするために、 Claude-Haiku-4.5 をプロキシアノテーターとして使用しました。このアノテーションの手順により、logitベースのクラスタが意味的に一貫した推論パターンに対応していることが確認されました。同じクラスタに含まれる回答は、正しい答えに到達しているかどうかに関わらず、同じ推論アプローチに従う傾向があります（例：素因数分解を試みる vs. 試し割り）。

図6: ある数論の問題の事例研究（2022に合計する3つの異なる約数を持つ最小の整数を見つける）。クラスターAには、共通の誤りパターン（約数の構造の理解不足）を示す回答が含まれています。一方、クラスターBには、素因数分解を用いた正しい推論が含まれています。ロジットに基づくクラスタリングは、これらの異なる戦略を効果的に分離します。

## Ablation

### アブレーションスタディ

我々は、様々な特徴量構築方法とクラスタリング手法が性能にどのように影響するかを調査します。アブレーション実験では、ランダムなクラスタ割り当て（コントロール）、意味的な特徴量（モデルのテキスト出力から取得）、および様々なクラスタリングアルゴリズムを用いたロジット特徴量を比較します。結果から、 クラスタリングの品質が大きく影響する ことが示されました。ロジットベースの特徴量とHDBSCANの組み合わせが最も優れた性能を示し、一方、ランダムなクラスタリングや意味的な特徴量は著しく劣ることが分かりました。

表3: 異なる特徴抽出方法とクラスタリングアルゴリズムを比較したアブレーションスタディの結果。MEDSのフル構成（logit特徴量 + HDBSCAN）が最も優れた性能を発揮し、両方のコンポーネントの重要性が検証されました。

## Limitations

### 制限事項

主な制約は、ロジットを活用するための手法が比較的単純であり、より高度な集約技術を取り入れているものではない点です。今後の研究では、中間表現からのより高度な特徴抽出、異なるクラスタリングアルゴリズム、およびコード生成、多段階計画、自由形式の創作など、数学的な推論以外のタスクへの応用を検討することができます。

## Keywords

### キーワード

## Meta

### 過去は過去ではない：記憶を活用した動的な報酬調整

MEDSフレームワークは、LLM（大規模言語モデル）の強化学習トレーニング中に、モデルのロジットを基にしたメモリベースのクラスタリングを使用して、反復するエラーパターンを特定し、それらをペナルティとして適用します。これにより、5つの数学ベンチマークにおいて、最大+4.13のpass@1の改善を達成します。

MEDSフレームワークは、モデルのロジットをメモリベースのクラスタリングによって分析し、強化学習（RL）によるLLMのトレーニング中に繰り返されるエラーパターンを特定し、ペナルティを適用します。その結果、5つの数学ベンチマークにおいて、最大+4.13のpass@1の改善を達成しました。

### https://flecto.zer0ai.dev/ja/papers/2604.11297/

### ja_JP

### https://flecto.zer0ai.dev/ja/papers/2604.11297/
