arXiv:2604.11297 · 2026年4月
大規模言語モデルに対する強化学習の成功にもかかわらず、一般的な問題点としてサンプリングの多様性の低下が挙げられます。これは、ポリシーが繰り返し類似した誤った動作を生成する状況です。従来のエントロピー正則化はランダム性を促進しますが、ロールアウト全体にわたる反復的な失敗パターンを明示的に抑制することはありません。そこで、我々はMEDS、すなわち、Memory-Enhanced Dynamic reward Shapingという、過去の行動シグナルを報酬設計に組み込むフレームワークを提案します。中間モデルの表現を保存し活用することで、過去のロールアウトの特徴を捉え、密度ベースのクラスタリングを用いて頻繁に繰り返されるエラーパターンを特定します。より一般的なエラークラスタに割り当てられたロールアウトは、より厳しいペナルティを受け、これにより広範な探索を促し、同時に繰り返し発生する間違いを減らします。
大規模言語モデル (LLMs) の基本的な機能の進歩に伴い、強化学習は様々な分野で目覚ましい成果を上げています。ルールベースの評価やプロキシモデルなどから得られる報酬信号を取り込むことで、LLMs はサンプリング段階と、勾配ベースの最適化段階を繰り返します。モデルの性能が、期待される報酬の最大化に向けて最適化されるにつれて、報酬の評価構造を設計することが、モデルの挙動を誘導するための主要な手段となります。
根本的な問題点: 強化学習の訓練が進むにつれて、ポリシーがしばしば狭く、固定的な一連の行動に陥ることがあります。この劣化は、オンポリシーのサンプルを無駄にする、非常に反復的な応答を引き起こし、モデルを自己強化的な誤った推論経路に固定してしまいます。従来のエントロピー正則化は、分布レベルでランダム性を促進しますが、反復的な行動パターンという根本的な問題に対処することはできません。
強化学習において、エントロピー正則化は、「ランダム性」に対してボーナスを与える手法です。これは、数学の問題を解く際に、常に同じ方法を使うのではなく、さまざまなアプローチを試みる学生に対して、先生が追加の評価を与えるようなものです。問題点は、このランダム性が単語レベルで行われることです。つまり、モデルはどの単語を選ぶかを変えるかもしれませんが、その下では同じような誤った推論戦略を使っている可能性があります。これは、間違った答えを実際に別の解法を試みる代わりに、単に単語の順序を入れ替える学生のようなものです。
課題は、分布レベルでの確率的探索が、真に新しい戦略を発見するランダム性と、同じ失敗したアプローチの組み合わせを試すだけのランダム性を区別できないことが多いという点です。モデルが多様なトークンをサンプリングしたとしても、依然として同一の誤った推論経路に従う可能性があります。例えば、表面上のテキストは変化しているにもかかわらず、問題を繰り返し誤解したり、間違った数式を適用したりすることがあります。
MEDSは、この課題を、トークンの分布レベルではなく、行動パターンレベルで動作することで解決します。MEDSは、一般的なランダム性を促進するのではなく、ロールアウト全体で繰り返される特定の誤りパターンを特定し、それらをペナルティとして課すことで、モデルが真に異なる推論戦略を試すように直接的にインセンティブを与えます。
MEDSフレームワークは、標準的な強化学習に、頻繁に発生するエラーパターンをターゲットとする、メモリベースのペナルティを追加します。入力 \(x \sim \mathcal{D}\) が与えられたとき、LLMポリシー \(\pi_\theta\) は、応答 \(y \sim \pi_\theta(y|x)\) を生成します。標準的なRLの目的は、期待される報酬 \(\mathbb{E}[r(x,y)]\) を最大化することです。MEDSは、この報酬関数を修正し、形状化された報酬を導入します。その式は \(r_s(x,y) = r(x,y) - \text{penalty}(c_i)\) であり、\(c_i\) は、応答の行動パターンに基づいたクラスタ割り当てです。
LLMがテキストを生成する際、単に単語を生成するだけでなく、各ステップで考えられるすべての次のトークンに対する確率分布を内部的に計算しています。これらの内部信号(logits)は、モデルの「思考プロセス」のようなものです。MEDSは、これらの信号を、各応答の推論戦略の指紋として利用します。数学の問題を解く2人の学生を考えてみましょう。彼らの書き出した答えが表面上異なって見える場合でも、もし彼らが同じ概念的な誤りを犯しているのであれば、彼らの内部的な推論パターンは似ているはずです。MEDSは、まさにこれを捉えています。モデルがどのように考えているか(how)に基づいて応答をグループ化し、単にモデルが何を書いているか(what)というだけでなく、その思考プロセスを考慮しているのです。
標準的な報酬関数 \(r(x,y)\) を用いると、更新されたポリシー \(q_1\) は、収益を最大化するパターンに収束します。一方、誤差クラスタへのペナルティ \(r(x,y) - \lambda c(y)\) を導入することで、修正されたポリシー \(q_2\) は、確率質量を大きな誤差クラスタから分散させるように、数学的に証明されて促進されます。
主要な理論的結果(定理2)は、形状化された報酬の下で、更新されたポリシー\(q_2\)が、期待される性能を維持しながら、より高いエントロピー\(H(q_2) \geq H(q_1)\)を達成することを示しています。これは、MEDSが品質を犠牲にすることなく、探索の多様性を確実に向上させることを意味します。
定理 2 (非公式): \(q_1\) と \(q_2\) を、それぞれ元の報酬関数 \(r(x,y)\) と、形状化された報酬関数 \(r(x,y) - \lambda c(y)\) の下で更新されたポリシーとします。このとき、\(H(q_2) \geq H(q_1)\) となり、これは形状化された報酬が、証明に基づき、出力の多様性を確実に増加させることを意味します。
定理2は、MEDSが意図したとおりに機能することを数学的に保証するものです。平たく言うと:最も一般的なエラーパターンに対してペナルティを科すことで、モデルは確実に、より多様な戦略を試すように強制されます
指標関数 \(c(y)\) を実装するために、MEDS はモデル自身の内部表現を直接活用します。ポリシーによって生成される各応答 \(y\) に対して、この方法は特定の内部層から logit ベクトル を収集します。これらのベクトルは、例えばシーケンス内の位置に関する平均プーリングによって、固定次元の特徴ベクトルに統合されます。この特徴ベクトルは、応答の推論ロジックを捉えます。このアプローチは、計算効率が高いという利点があります。なぜなら、これらの表現は標準的な順伝播計算中にすでに計算されており、追加の推論は不要だからです。
ロジットとは、言語モデルが次のトークンに対する確率を計算する前に算出する、生のスコアのことです。例えば、モデルが次にどの単語が来るかを判断する場合、"the" に対して 5.2 のスコア、"and" に対して 3.1 のスコア、"banana" に対して -1.7 のスコアを割り当てる可能性があります。これらのスコア(ロジット)は、モデルの内部的な嗜好性を反映しています。MEDS は、最終的な出力層ではなく、中間層からこれらの情報を収集することで、単なる表面的な単語の選択だけでなく、基盤となる推論ロジックを捉えようとしています。
構築された応答表現に基づいて、MEDSはHDBSCAN(ノイズを含むアプリケーションの階層的密度ベース空間クラスタリング)を使用してクラスタの割り当てを計算します。メモリバッファは、過去の実行からの特徴ベクトルを格納します。各新しいバッチについて、この方法は以下の手順を実行します。
最終的な報酬は次のようになります: \(r_s(x,y) = r(x,y) - \text{penalty}(c_i)\)、ここで、ペナルティ関数は割り当てられたクラスタのサイズとともに増加し、最も一般的な故障モードに対して直接的な圧力をかけます。
HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) は、データポイントを、それらがどれだけ密集しているかに基づいてグループ化するクラスタリングアルゴリズムです。 K-meansとは異なり、HDBSCANは事前にクラスタの数を指定する必要がなく、クラスタを自動的に発見し、"ノイズ"(どのパターンにも適合しない応答)を処理できます。 これは、MEDSにとって理想的です。なぜなら、(1) エラーパターンが事前にいくつ存在するかを知ることができない、(2) 一部の応答は本当にユニークであり、クラスタに無理やり組み込むべきではない、(3) エラーパターンは特徴空間において不規則な形状を持つ可能性がある、という理由からです。
表1は、3つのベースモデルと5つの数学的推論ベンチマークにおける性能をまとめたものです。MEDSは、一貫して最も高い平均性能を示し、異なるレベルの事前数学的訓練を受けたモデル間で優れた汎化性能を発揮することを示しています。
あらゆる設定において、MEDSは最も高い平均的なpass@1およびpass@128のスコアを実現します。特に、AIME24やOlympiadBenchといった、多様な推論戦略が重要となる難易度の高いベンチマークにおいて、その改善効果は顕著です。注目すべきは、pass@1(最良の単一試行)とpass@128(128回の試行の中で最良のもの)の両方において、MEDSが改善をもたらしている点であり、これはMEDSが生成される解決策の品質と幅の両方を向上させることを示しています。
pass@k は、生成された k 個の解のうち、少なくとも 1 つが正しい確率を測る指標です。pass@1 は、1 回の試行の精度を示し、試験問題に対して 1 回のチャンスがあるのと同じです。pass@128 は、モデルに 128 回の試行を与え、そのいずれかが正しいかどうかを確認します。 pass@1 を改善することは、モデルの最良の推測がより正確になることを意味し、pass@128 を改善することは、モデルがより広い範囲の戦略を試すことを意味します。 MEDS は、両方を改善し、モデルが問題解決においてより賢く、より創造的になることを示しています。
推論プロセスにおいて、MEDSがモデルの探索にどのように影響を与えるかを理解するために、行動学的および表現論的な観点から詳細な分析を実施しました。Claude-Haiku-4.5をプロキシアノテーターとして使用し、サンプリングされた応答のセマンティックな多様性を評価しました。MEDSは多様性スコア61.2を達成し、これはDAPO(45.16)およびGRPO w/ Entropy Adj.(52.52)よりも大幅に高い数値です。
| Method | Diversity Score |
|---|---|
| DAPO | 45.16 |
| GRPO w/ Entropy Adj. | 52.52 |
| MEDS-v1 | 54.71 |
| MEDS-v2 | 53.87 |
| MEDS (Full) | 61.2 |
表現の観点から、我々はTop-1 Eigen Ratio—出力空間における表現の収束度合いを示す指標—を分析します。高い比率を示すことは、モデルの出力がより少ない次元に集中していることを意味し、多様性の低下を示唆します。MEDSは、トレーニング全体を通して一貫して低いeigen ratioを維持しており、これはMEDSが根本レベルで表現の多様性を維持していることを裏付けています。
「Top-1 Eigen Ratio」は、モデルの出力が表現空間において、どれだけ単一の方向に集中しているかを測る指標です。モデルの出力を、高次元空間における矢印だと想像してください。もしすべての矢印がほぼ同じ方向を向いている場合、固有比率は高くなります(1.0に近い)。これは、モデルが多様性を失っている状態、つまり表現の収束を示しています。一方、比率が低い場合は、矢印が多くの方向に広がり、多様な推論戦略を示唆しています。MEDSは、トレーニング期間中、この比率をDAPOよりも低く保つように設計されており、これによりモデルが多様な思考能力を維持できるようにします。
MEDSの基本的な前提は、中間層からのlogitベクトルが、単なる表面的なトークン予測だけでなく、その背後にある論理的な推論構造を捉えているということです。私たちは、定性的な事例研究と大規模な定量分析の両方を通じて、これを検証します。同じ問題に対する異なる応答のlogit表現は、意味的に意味のある推論戦略(正しいアプローチと間違ったアプローチ)に対応する、異なるクラスターを形成します。
t-SNE(t-distributed Stochastic Neighbor Embedding)は、高次元データを2次元で可視化するための手法です。複雑な3次元の彫刻を、その構造が最もよく見える角度から撮影するとイメージしてください。図中の各点は、モデルの応答それぞれを表しており、内部的な推論パターンが類似している応答は、近くに配置されます。明確なクラスタが形成されるという事実は、ロジット特徴が単なるランダムノイズではなく、異なる推論戦略を真に捉えていることを示しています。
大規模な検証を行うために、ランダムに選択された回答の推論戦略をラベル付けするために、Claude-Haiku-4.5をプロキシアノテーターとして使用しました。このアノテーションの手順により、logitベースのクラスタが意味的に一貫した推論パターンに対応していることが確認されました。同じクラスタに含まれる回答は、正しい答えに到達しているかどうかに関わらず、同じ推論アプローチに従う傾向があります(例:素因数分解を試みる vs. 試し割り)。
我々は、様々な特徴量構築方法とクラスタリング手法が性能にどのように影響するかを調査します。アブレーション実験では、ランダムなクラスタ割り当て(コントロール)、意味的な特徴量(モデルのテキスト出力から取得)、および様々なクラスタリングアルゴリズムを用いたロジット特徴量を比較します。結果から、クラスタリングの品質が大きく影響することが示されました。ロジットベースの特徴量とHDBSCANの組み合わせが最も優れた性能を示し、一方、ランダムなクラスタリングや意味的な特徴量は著しく劣ることが分かりました。
MEDSが応答をランダムにクラスタリングする場合(実際の思考パターンを無視してペナルティを課す場合)、そのペナルティは意味のないノイズとなり、良い応答を悪い応答と同じくらい損なう可能性があります。もし、MEDSが表面的なテキストの特徴のみを使用する(意味的クラスタリング)場合、見た目が似ていても、実際には異なる思考戦略を使用している応答をグループ化してしまう可能性があります。見た目が似ていても、実際には異なる思考戦略を使用している応答をグループ化してしまう可能性があります。ロジットベースの特徴のみが、その背後にある思考の論理を捉え、HDBSCANが真に共通するエラーパターンに対応するクラスタを形成することを可能にします。そのため、MEDSの完全な構成は、ランダムなベースラインや意味的ベースラインよりも大幅に優れた性能を発揮します。
MEDSは、過去の行動データを行動報酬設計に組み込むことで、LLM(大規模言語モデル)の推論における反復的なエラーパターンを効果的に抑制できることを示しています。この研究の主な貢献は以下の通りです。
主な制約は、ロジットを活用するための手法が比較的単純であり、より高度な集約技術を取り入れているものではない点です。今後の研究では、中間表現からのより高度な特徴抽出、異なるクラスタリングアルゴリズム、およびコード生成、多段階計画、自由形式の創作など、数学的な推論以外のタスクへの応用を検討することができます。