Self-Distilled RLVR

主な貢献

🧬

OPSDの故障の原因が特定されました。

形式的な証明により、情報非対称性下での分布整合性は、解消不可能な相互情報量のギャップを引き起こし、その結果、OPSD（Ordered Probabilistic Sorting Device）において、特権情報の漏洩が構造的に避けられないことが示されています。

⚖️

トークンレベルでのクレジット割り当て：自己蒸留による手法

RLSDは、自己蒸留教師を「magnitude evaluator（大きさ評価器）」として再利用します。環境からの報酬が方向を決定し、特別な教師がトークンごとの更新の大きさを決定することで、情報漏洩を排除しつつ、豊富な情報を維持します。

🏆

最先端の多様性モダリティ推論.

RLSDは、5つのマルチモーダル推論ベンチマーク（MMMU、MathVista、MathVision、ZeroBench、Wemath）において、最も高い平均精度を達成しました。具体的には、GRPOと比較して平均+2.32%、Base LLMと比較して平均+4.69%の向上を見せています。

要約

オンポリシー蒸留 (OPD) は、LLM コミュニティにおいて、広く採用されている学習パラダイムとなっています。このパラダイムでは、より大きなモデルを教師として使用し、サンプリングされた各軌跡に対して詳細で微細な信号を提供します。これに対し、検証可能な報酬に基づく強化学習 (RLVR) は、検証可能な結果からのみ疎な信号しか得られません。最近では、オンポリシー自己蒸留 (OPSD) が検討されており、これは同じモデルが教師と生徒の両方の役割を果たすもので、教師は特権的な情報を受け取り、自己進化を可能にします。本稿では、特権的な教師からのみ得られる学習信号は、深刻な情報漏洩を引き起こし、長期的な学習の安定性を損なうことを示します。我々は、自己蒸留に最適な条件を特定し、RLSD (RLVR with Self-Distillation) を提案します。RLSDでは、自己蒸留がトークンレベルでの更新量を決定し、RLVRが環境からのフィードバックに基づいて信頼性の高い更新方向を提供します。RLSDは、RLVRとOPSDの利点を同時に活用し、より高い収束性と優れた学習の安定性を実現します。

背景と、OSPDの問題点について.

検証可能な報酬を用いた強化学習 (RLVR) 手法、例えば GRPO は、大規模な推論モデルの学習において中心的な役割を果たすようになりました。各軌道は、検証者から単一のスカラー報酬のみを受け取り—これは スパースな信号 です—そして、応答内のすべてのトークンは同じアドバンテージ推定値を使用するため、トークンレベルでの区別がありません。

LLMにおける強化学習における「スパース報酬」とは？

LLM（大規模言語モデル）のための強化学習において、「スパース報酬」とは、モデルが応答全体に対して1つのフィードバック信号しか受け取らないことを意味します。具体的には、正解であれば✓、不正解であれば✗という、単一の評価です。応答に含まれるすべてのトークン（潜在的に数百個）が同じアドバンテージスコアを共有するため、モデルはどの特定のトークンが正解または不正解の原因となったのかを特定できません。これは、エッセイを最終的なスコアだけで評価し、文単位でのフィードバックを与えないのと似ています。

On-Policy Self-Distillation (OPSD)は、この問題を解決しようとする手法であり、教師（参照解答を受け取る）と生徒（独立して解答を生成する）の両方に同じモデルを使用します。しかし、これにより、根本的な非対称性が生じます。教師は生徒が推論時にアクセスできない、特権的な情報を持っているからです。

⚠️ OPSDが失敗する理由：情報漏洩

OPSDでトレーニングされたモデルは、推論時に利用できない特権情報に体系的に参照することがあります。例えば、OPSDでトレーニングされたモデルは、次のような出力を生成する可能性があります： "標本平均が母集団平均から$1以内にあるかどうかを判断する必要があります...参照ソリューションが9つの値を使用しているという情報が与えられている..." — これは、モデルが知るべきではない参照解答を明示的に使用しています。この情報漏洩は、トレーニング中に単調に増加し、その結果、パフォーマンスは10〜20ステップでピークに達し、その後低下します。

自己蒸留における「情報の非対称性」とは？

OPSDでは、同じモデルが同時に2つの役割を果たします。

教師モード: 質問と、参照解答rを同時に受け取ります。これは、教科書を参照できる試験のようなものです。
生徒モード: 質問のみを受け取ります。これは、教科書を参照できない試験のようなものです。

これが「情報の非対称性」です。教師と生徒が異なる情報を持っています。問題点は、学習の目的が、生徒が教師のトークンごとの確率分布と一致するようにすることであることです。しかし、教師の分布には解答が含まれています。生徒が解答パターンを密かに暗記せずに、この一致を達成することはできません。これが「漏洩」を引き起こします。

Performance comparison charts — **図1.** Qwen3-VL-8B-Instruct における性能。 (a) OPSD は初期にピークを迎え、その後性能が低下する。RLSD は GRPO の安定した最適化方向と OPSD の豊富な情報を引き継ぐ。 (b) RLSD は、すべての推論ベンチマークにおいて最高の精度を達成する。

トレーニングパラダイムの比較

Method	Trajectory	Efficiency	Leakage Risk	Signal	Direction Anchoring
SFT	Off-policy	High	N/A	Rich	Teacher
RLVR (GRPO)	On-policy	High	N/A	Weak	Environment
OPD	On-policy	Low	N/A	Rich	Teacher
OPSD	On-policy	High	Severe	Rich	Teacher
RLSD (Ours)	On-policy	High	N/A	Rich	Environment

Leakage occurrence, performance, and KL divergence comparison — **図2.** OPSDおよびその改良版の、漏洩発生状況、検証性能、およびKLダイバージェンス。OPSDは、単調に増加する漏洩、低下する性能、および停滞するKLダイバージェンスを示しています。

RLSD法

RLVRの方向性に関する信頼性と、自己蒸留によるトークンレベルの詳細さを組み合わせる。

RLSD architecture diagram — **図3.** RLSDアーキテクチャ。左：ポリシーモデルは、StudentモードとTeacherモードの両方で動作します。中央：RLSDは、トークンレベルの対数尤度の差（特権情報ゲイン）を使用して、更新の*大きさ*を計算します。右：GRPO環境からのフィードバックが、更新の方向を決定します。

1

ステップ1：特権情報の取得

各ステップにおいて、Teacher Mode（参照解答 r を参照する）とStudent Mode（質問 x のみを参照する）における対数尤度の差を計算します。Δ_t = sg(log π_θ(y_t|x,r,y<t) − log π_θ(y_t|x,y<t))。この計算は、勾配を遮断することで、単なる重み付け信号として機能するように設計されています。

「stop-gradient (sg)」とは何か、そしてなぜそれが情報漏洩を防ぐのか？

「stop-gradient」演算子 sg(·) は、教師側の計算における逆伝播を防止します。もしこれがなければ、教師側のロジットからの勾配信号がモデルの重みに逆流し、参照解答 r を符号化するようにモデルの重みが更新され、情報漏洩が発生します。sg(·) を使用することで、Δ_t は純粋に勾配の大きさを調整する重みとして機能します。勾配の方向は依然として RLVR の環境からの報酬によって決定され、この報酬は r に関する知識を一切持っていません。

2

ステップ2：方向性を考慮したエビデンスの重み付け.

各トークンに、w_t = exp(sign(A)·Δ_t) という重みを割り当てます。ここで、A は RLVR から得られる、シーケンスレベルでのアドバンテージです。トレースが正しい場合 (A > 0)、教師が支持するトークンはより大きな重みを受けます。一方、トレースが誤っている場合 (A < 0)、それらのトークンはより強いペナルティを受けます。これは、ベイズ的なクレジットアサインメントを実現するものです。

方向を考慮した重み付けのベイズ解釈

重みの公式 w_t = exp(sign(A)·Δ_t) は、自然なベイズ解釈を持っています。

π_θ(y_t | x, y_<t) は、モデルがトークン y_t (回答なし) に持つ 事前確率です。
π_θ(y_t | x, r, y_<t) は、回答が与えられた場合の 事後確率です。
Δ_t = log(事後確率/事前確率) は、回答がこのトークンに対する信念をどの程度「更新」するかを測ります。

A > 0 (正解) の場合、回答によって支持されるトークンは w_t > 1 となり、より多くの評価を得ます。A < 0 (誤り) の場合、それらのトークンはより強い責任を負います。これは、まさにきめ細かい評価の仕組みです。

3

ステップ3：クリップされたクレジットアサインメント.

PPOのクリッピングの考え方に従い、トークン重みを以下のように制限します: w̃_t = A・(1−λ) + λ・clip(w_t, 1−ε_w, 1+ε_w)。これにより、単一のトークンが過剰な信用を受け取るのを防ぎ、勾配爆発を回避します。補助的な蒸留損失は追加されず、シーケンスレベルでの信用を内部的に再分配するのみです。

アルゴリズム1 — RLSD: 自己蒸留を用いた強化学習 (Reinforcement Learning with Self-Distillation)

Require: Policy π₀, dataset S={(xᵢ,rᵢ)}, verifier R(·,·), group size G, λ, ε_w





1: for each training step do


2:   for each question x with privileged info r do


3:     Sample G responses {y⁽¹⁾,...,y⁽ᴳ⁾} ~ π_θ(·|x)


4:     // Sequence-level advantage from environment


5:     Aᵢ = (R(x,y⁽ⁱ⁾) - μ_G) / σ_G   [GRPO reward normalization]


6:     // Token-level credit assignment via self-distillation


7:     for each response y⁽ⁱ⁾ do


8:       Compute teacher logits via forward pass with (x, r, y⁽ⁱ⁾)


9:       Δₜ = sg(log π_θ(yₜ|x,r,y<ₜ) − log π_θ(yₜ|x,y<ₜ))


10:      wₜ = exp(sign(Aᵢ)·Δₜ)   [direction-aware weight]


11:      w̃ₜ = Aᵢ·(1−λ) + λ·clip(wₜ, 1−ε_w, 1+ε_w)


12:    end for


13:    // Update policy maximizing E[∑ᵢ∑ₜ w̃ₜ·log π_θ(yₜ|x,y<ₜ)]


14:  end for


15: end for

Token-level credit assignment illustration

OPSDがうまくいかない理由：理論的分析

OPSD（最適輸送距離に基づく最適化手法）の経験的な失敗（情報漏洩、性能劣化、KLダイバージェンスの停滞）は、偶然ではありません。これらは、分布整合性の最適化目標における構造的な欠陥に起因するものです。このことを形式的に裏付ける重要な結果が2つあります。

Theorem 1 — KL Decomposition

OPSDの目的と、理想的なマージナル目的は、削減できない相互情報量の項によって正確に異なります。

定理 1 — 平易な言葉での説明

方程式 L_OPSD = L* + I(Y_t; R | X, Y_<t) は、次のことを意味します。OPSDの学習目標は、常に、現在のトークンと優先的な回答との間の相互情報量によって正確に決まる理想的な目標値よりも大きい。

なぜこれが重要なのか？ I(Y_t; R | X, Y_<t) を、「知識格差税」と考えることができます。これは、教師が次のトークンを予測するために、回答を知っていることがどれだけ重要であるかを表しています。この格差は、数学的に不可欠であり、学習者はこの限界を超えることができません。なぜなら、学習者は R に基づいて条件付けできないからです。

ビジネスのたとえ話： 経験豊富な同僚が顧客の予算を密かに知っている状態で、営業担当者を育成することを想像してください。担当者は、コミュニケーションのスタイルを模倣できますが、専門家の価格設定の決定には、本質的に機密情報が含まれています。担当者は、その機密情報へのアクセスがない限り、その格差を完全に埋めることはできません。

\mathcal{L}_{\text{OPSD}} = \mathcal{L}^* + I(Y_t; R \mid X, Y_{<t})

I(Y_t; R | X, Y_{<t}) という用語は、現在のトークンと、教師による提供された情報との間の条件付き相互情報量です。生徒は Y_{<t} に基づいて条件付けできないため、この差は不可分です。つまり、生徒は決して教師の目標に到達できません。これが、KLダイバージェンスが停滞する理由を説明します。生徒が周辺分布に近づくと、残りのギャップ I(·) が乗り越えられない障壁となります。

Proposition 1 — Per-Sample Gradient Decomposition

特権情報 *r* の具体的な実現形態について、サンプルごとの勾配は、有益なマージナルマッチング成分 g*(θ) と、*r* に特有の偏差 δ(θ; *r*) に分解されます。

提案1 — 2段階の学習ダイナミクスについて

勾配分解 g(θ;r) = g*(θ) + δ(θ;r) は、学習を2つの段階に分けます。

第1段階 (初期学習): 学生モデルが教師モデルから遠いため、"良い"マージナルマッチング勾配である g*(θ) が優勢になります。学習は効果的に進み、性能が向上します。
第2段階 (後期学習): 学生モデルが教師モデルに近づくにつれて、r 特有のずれである δ(θ;r) が優勢になり始めます。SGD は一度に1つのミニバッチを処理するため、これらの r 特有のずれがパス依存的に蓄積し、徐々にモデルを、質問と参照回答の間の相関関係を符号化するように誘導します。これが情報漏洩です。

実用上の意味合い: OPSD は一見最初の方 (最初の10～20ステップ) で効果があるように見えますが、その後、性能が低下します。これにより、実際には長期的な学習を阻害しているにもかかわらず、この方法が有効であるという危険な錯覚が生じます。

g(\theta; r) = g^*(\theta) + \delta(\theta; r)

期待されるずれはゼロ（E_r[δ] = 0）ですが、確率的勾配降下法は個々のサンプルに対して動作します。各ミニバッチに、rに依存するノイズが注入されます。学習初期段階では、これは問題ありません（有益な項が優勢です）。しかし、学習が進むにつれて、パス依存性の累積がモデルを、x → r の相関関係を符号化する領域へと導き、情報漏洩を引き起こします。

💡 RLSDの修正。

RLSDは、特権的な教師を用いて勾配の方向を設定しないことで、その繋がりを断ち切ります。代わりに、教師の評価は、ストップ・グラディエント操作を通じて、トークンごとの重み（大きさ）に統合されます。一方、RLVRの環境からの報酬が、勾配の方向の唯一の情報源となります。これにより、rに特有の偏差 δ(θ; r) が勾配から除去されます。

実験結果

67.22

MMMU

最高のパフォーマンス (+2.11 vs GRPO)

78.10

MathVista

最高の結果 (+1.90 vs GRPO)

52.73

MathVision

最良の結果 (+3.91 vs GRPO)

56.18

Average

最高平均値 (+2.32 vs GRPO)

マルチモーダル推論ベンチマークの結果 (Qwen3-VL-8B-Instruct)

Method	MMMU	MathVista	MathVision	ZeroBench	Wemath	Avg.
Base LLM	62.44	73.80	47.37	19.76	54.10	51.49
GRPO	65.11	76.20	48.82	22.60	56.57	53.86
OPSD	63.82	75.10	47.53	21.06	54.95	52.49
SDPO	65.11	74.00	47.27	25.15	52.19	52.74
GRPO+OPSD	63.22	75.90	48.52	22.16	54.76	52.91
RLSD (Ours)	67.22	78.10	52.73	24.85	58.00	56.18

RLSDは、平均精度が最も高く、56.18%（4Kコンテキスト）を達成し、Base LLMよりも+4.69%、GRPOよりも+2.32%高い性能を示しました。注目すべきは、OPSDは実際にはGRPOよりも低い精度（52.49% vs 53.86%）であり、これは単純な自己蒸留が性能を低下させることを裏付けています。単純な線形結合であるGRPO+OPSD（52.91%）も改善が見られず、これは単に目的を組み合わせるだけでは不十分であり、根本的な再設計が必要であることを示しています。

なぜOPSDは、純粋なGRPOよりも性能が劣るのか？

これは直感に反する結果です。OPSD (平均52.49%) は、より多くの情報（正解データ）を利用しているにも関わらず、GRPO (平均53.86%) よりも性能が劣ります。Proposition 1 の分析が、その理由を説明しています。r 特有の勾配のずれ δ(θ;r) が学習中に蓄積し、モデルの意思決定境界を歪めてしまうのです。モデルは、推論時に存在しない正解データのパターンに依存することを学習してしまうため、GRPOと比較して性能が低下します。GRPOは、そのような歪みが発生したことがありません。より多くの情報 + 間違った学習目標 = より悪い結果。

Training dynamics: reward, entropy, clip ratio — **図4.** 200ステップにわたる学習過程。 (a) RLSDは、より高い報酬の限界に到達します。 (b) RLSDは、より高いエントロピー（探索の多様性）を維持します。 (c) 学習期間中、RLSDのクリッピングによるクレジット代入の変動は安定しています。

Token-level credit heatmaps — **図5.** トークンレベルのクレジットヒートマップ。 *上（正しい軌跡）:* RLSDは、重要なカウント/減算のステップにクレジットを集中させます。 *下（誤った軌跡）:* RLSDは、誤った関係式"3x = 28.5"に対する責任を特定し、エラーの原因を正しく特定します。

結論

この研究は、オンポリシー自己蒸留 (OPSD) の根本的な限界を明らかにし、RLSD をその解決策として提案します。主なポイントは以下の3つです。

原因の特定：OPSDの分布マッチングという目的は、情報格差が存在する場合、構造的に適切ではなく、不可避的な相互情報量のギャップと、サンプルごとの勾配のずれを引き起こし、それが情報漏洩の原因となります。
RLSDが緊張を解消します： RLSDは、方向の決定には環境からの報酬を使用し、トークンごとの大きさの重みに対してのみ自己蒸留を行う（stop-gradientを使用）。これにより、RLSDは情報漏洩を完全に回避しつつ、密な信用割り当てを維持します。
強力な実験結果： RLSDは、5つのマルチモーダル推論ベンチマークにおいて最先端の性能を達成し、平均精度が56.18%と、ベースとなるLLMと比較して+4.69%向上し、GRPOと比較して+2.32%向上しました。

制約事項と今後の課題

この論文の実験は、Qwen3-VL-8B-Instructを用いて、マルチモーダルな推論タスクに焦点を当てています。今後の研究では、RLSDを純粋な言語推論モデル、大規模モデル、および多様なドメインで評価する必要があります。混合係数 λ とクリップ境界 ε_w は調整が必要であり、これらのハイパーパラメータに対する適応的な手法を導入することで、利便性が向上します。

付録 — 理論的性質

表A1：OPSDバリアントとRLSDの特性.

Property	OPSD (Frozen)	OPSD (Online)	RLSD
(a) Objective stability	✓	✗	✓
(b) Sustained improvement	✗	✓	✓
(c) Leakage-free training	✗	✗	✓

参考文献

Shao et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. 2024.
DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. 2025.
Kimi Team. Kimi k1.5: Scaling Reinforcement Learning with LLMs. 2025.
Agarwal et al. On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes. ICML 2024.
Lu, Kevin. On-Policy Distillation. Thinking Machines Lab, 2025.
Core Team. MIMO-v2-Flash Technical Report. 2026.
Zhao et al. Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models. 2026.
Hübotter et al. Reinforcement Learning from Verifiable Rewards. 2025.
Schulman et al. Proximal Policy Optimization Algorithms. 2017.
Xie et al. Unlocking Exploration in RLVR: Uncertainty-Aware Advantage Shaping. 2025.
Li et al. Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment. 2025.
Kingma and Ba. Adam: A Method for Stochastic Optimization. 2015.
Lin et al. MMFineReason: Closing the Multimodal Reasoning Gap. 2025.
Yue et al. MMMU: A Massive Multi-Discipline Multimodal Understanding Benchmark. 2023.
Lu et al. MathVista: Evaluating Mathematical Reasoning of Foundation Models. 2023.
Wang et al. Measuring Multimodal Mathematical Reasoning with Math-Vision. 2024.
Roberts et al. ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models. 2025.
Qiao et al. Wemath: We Math Dataset. 2024.
Bai et al. Qwen-VL: A Versatile Vision-Language Model. 2025.
Sheng et al. HybridFlow: A Flexible and Efficient RLHF Framework. 2024.
Zheng et al. EasyR1: An Efficient, Scalable, Multi-Modality RL Training Framework. 2025.
Lightman et al. Let's Verify Step by Step. ICLR 2024.