---
arxiv_id: 2604.03128
title: "Self-Distilled RLVR | Flecto"
authors:
  - Chenxu Yang
  - Chuanyu Qin
  - Qingyi Si
  - Minghui Chen
  - Naibin Gu
  - Dingyu Yao
  - Zheng Lin
  - Weiping Wang
  - Jiaqi Wang
  - Nan Duan
difficulty: Advanced
tags:
  - LLM
  - Agent
  - Reasoning
published_at: 2026-04-03
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.03128/
lang: ja
---

> 自己蒸留型RLVR

**著者**: Chenxu Yang*, Chuanyu Qin*, Qingyi Si*, Minghui Chen, Naibin Gu, Dingyu Yao, Zheng Lin, Weiping Wang, Jiaqi Wang, Nan Duan

## Abstract

オンポリシー蒸留 (OPD) は、LLM コミュニティにおいて、広く採用されている学習パラダイムとなっています。このパラダイムでは、より大きなモデルを教師として使用し、サンプリングされた各軌跡に対して詳細で微細な信号を提供します。これに対し、検証可能な報酬に基づく強化学習 (RLVR) は、検証可能な結果からのみ疎な信号しか得られません。最近では、オンポリシー自己蒸留 (OPSD) が検討されており、これは同じモデルが教師と生徒の両方の役割を果たすもので、教師は特権的な情報を受け取り、自己進化を可能にします。本稿では、特権的な教師からのみ得られる学習信号は、深刻な情報漏洩を引き起こし、長期的な学習の安定性を損なうことを示します。我々は、自己蒸留に最適な条件を特定し、 RLSD (RLVR with Self-Distillation) を提案します。RLSDでは、自己蒸留がトークンレベルでの更新量を決定し、RLVRが環境からのフィードバックに基づいて信頼性の高い更新方向を提供します。RLSDは、RLVRとOPSDの利点を同時に活用し、より高い収束性と優れた学習の安定性を実現します。

## Results

### 実験結果

## References

### 以下のテキストを日本語に翻訳してください。固有名詞、人名、所属、組織名はそのままにして、HTMLタグは変更せずにそのまま出力してください。 References

## Head Title

### Self-Distilled RLVR | Flecto

## Head Meta

### RLSDは、RLVRと自己蒸留を組み合わせることで、トークンレベルでの貢献度の割り当てを実現し、これにより、より優れたLLMの学習のために、OPSDにおける情報漏洩の問題を解決します。

## Hero Button

### arXivで読む ↗

### 結果へジャンプ

## Contributions

### 主な貢献

## Contributions Card1

### OPSDの故障の原因が特定されました。

形式的な証明により、情報非対称性下での分布整合性は、解消不可能な相互情報量のギャップを引き起こし、その結果、OPSD（Ordered Probabilistic Sorting Device）において、特権情報の漏洩が構造的に避けられないことが示されています。

## Contributions Card2

### トークンレベルでのクレジット割り当て：自己蒸留による手法

RLSDは、自己蒸留教師を「 magnitude evaluator （大きさ評価器）」として再利用します。環境からの報酬が方向を決定し、特別な教師がトークンごとの更新の大きさを決定することで、情報漏洩を排除しつつ、豊富な情報を維持します。

## Contributions Card3

### 最先端の多様性モダリティ推論.

RLSDは、5つのマルチモーダル推論ベンチマーク（MMMU、MathVista、MathVision、ZeroBench、Wemath）において、最も高い平均精度を達成しました。具体的には、GRPOと比較して平均+2.32%、Base LLMと比較して平均+4.69%の向上を見せています。

## Background

### 背景と、OSPDの問題点について.

## Background Intro1

検証可能な報酬を用いた強化学習 (RLVR) 手法、例えば GRPO は、大規模な推論モデルの学習において中心的な役割を果たすようになりました。各軌道は、検証者から単一のスカラー報酬のみを受け取り—これは スパースな信号 です—そして、応答内のすべてのトークンは同じアドバンテージ推定値を使用するため、トークンレベルでの区別がありません。

## Background Intro2

On-Policy Self-Distillation (OPSD)は、この問題を解決しようとする手法であり、教師（参照解答を受け取る）と生徒（独立して解答を生成する）の両方に同じモデルを使用します。しかし、これにより、根本的な非対称性が生じます。教師は生徒が推論時にアクセスできない、特権的な情報を持っているからです。

## Background Callout

### &#x26A0;&#xFE0F; OPSDが失敗する理由：情報漏洩

OPSDでトレーニングされたモデルは、推論時に利用できない 特権情報に体系的に参照する ことがあります。 例えば、OPSDでトレーニングされたモデルは、次のような出力を生成する可能性があります： "標本平均が母集団平均から$1以内にあるかどうかを判断する必要があります...参照ソリューションが9つの値を使用しているという情報が与えられている..." — これは、モデルが知るべきではない参照解答を明示的に使用しています。 この情報漏洩は、トレーニング中に単調に増加し、その結果、パフォーマンスは10〜20ステップでピークに達し、その後低下します。

## Background Figure2

図1. Qwen3-VL-8B-Instruct における性能。 (a) OPSD は初期にピークを迎え、その後性能が低下する。RLSD は GRPO の安定した最適化方向と OPSD の豊富な情報を引き継ぐ。 (b) RLSD は、すべての推論ベンチマークにおいて最高の精度を達成する。

## Background Table1

### トレーニングパラダイムの比較

## Background Figure3

### 図2. OPSDおよびその改良版の、漏洩発生状況、検証性能、およびKLダイバージェンス。OPSDは、単調に増加する漏洩、低下する性能、および停滞するKLダイバージェンスを示しています。

## Method

### RLSD法

### RLVRの方向性に関する信頼性と、自己蒸留によるトークンレベルの詳細さを組み合わせる。

## Method Figure4

図3. RLSDアーキテクチャ。左：ポリシーモデルは、StudentモードとTeacherモードの両方で動作します。中央：RLSDは、トークンレベルの対数尤度の差（特権情報ゲイン）を使用して、更新の 大きさ を計算します。右：GRPO環境からのフィードバックが、更新の 方向 を決定します。

## Method Step1

### ステップ1：特権情報の取得

各ステップにおいて、Teacher Mode（参照解答 r を参照する）とStudent Mode（質問 x のみを参照する）における対数尤度の差を計算します。Δ_t = sg(log π_θ(y_t|x,r,y<t) − log π_θ(y_t|x,y<t))。この計算は、勾配を遮断することで、単なる重み付け信号として機能するように設計されています。

## Method Step2

### ステップ2：方向性を考慮したエビデンスの重み付け.

各トークンに、w_t = exp(sign(A)·Δ_t) という重みを割り当てます。ここで、A は RLVR から得られる、シーケンスレベルでのアドバンテージです。 トレースが正しい場合 (A > 0)、教師が支持するトークンはより大きな重みを受けます。 一方、トレースが誤っている場合 (A < 0)、それらのトークンはより強いペナルティを受けます。 これは、ベイズ的なクレジットアサインメントを実現するものです。

## Method Step3

### ステップ3：クリップされたクレジットアサインメント.

PPOのクリッピングの考え方に従い、トークン重みを以下のように制限します: w̃_t = A・(1−λ) + λ・clip(w_t, 1−ε_w, 1+ε_w)。これにより、単一のトークンが過剰な信用を受け取るのを防ぎ、勾配爆発を回避します。補助的な蒸留損失は追加されず、シーケンスレベルでの信用を内部的に再分配するのみです。

## Method Algo

### アルゴリズム1 — RLSD: 自己蒸留を用いた強化学習 (Reinforcement Learning with Self-Distillation)

## Theory

### OPSDがうまくいかない理由：理論的分析

## Theory Intro

OPSD（最適輸送距離に基づく最適化手法）の経験的な失敗（情報漏洩、性能劣化、KLダイバージェンスの停滞）は、偶然ではありません。これらは、分布整合性の最適化目標における構造的な欠陥に起因するものです。このことを形式的に裏付ける重要な結果が2つあります。

## Theory Theorem1

### OPSDの目的と、理想的なマージナル目的は、削減できない相互情報量の項によって正確に異なります。

## Theory Prop1

### 特権情報 *r* の具体的な実現形態について、サンプルごとの勾配は、 有益なマージナルマッチング成分 g*(θ) と、 *r* に特有の偏差 δ(θ; *r*) に分解されます。

## Theory Insight

### &#x1F4A1; RLSDの修正。

RLSDは、特権的な教師を用いて勾配の方向を設定しないことで、その繋がりを断ち切ります。代わりに、教師の評価は、ストップ・グラディエント操作を通じて、トークンごとの重み（大きさ）に統合されます。一方、RLVRの環境からの報酬が、勾配の方向の唯一の情報源となります。これにより、rに特有の偏差 δ(θ; r) が勾配から除去されます。

## Results Metric Mmmu

### 最高のパフォーマンス (+2.11 vs GRPO)

## Results Metric Mathvista

### 最高の結果 (+1.90 vs GRPO)

## Results Metric Mathvision

### 最良の結果 (+3.91 vs GRPO)

## Results Metric Avg

### 最高平均値 (+2.32 vs GRPO)

## Results Table2

### マルチモーダル推論ベンチマークの結果 (Qwen3-VL-8B-Instruct)

## Results Analysis

RLSDは、平均精度が最も高く、56.18%（4Kコンテキスト）を達成し、Base LLMよりも +4.69% 、GRPOよりも +2.32% 高い性能を示しました。注目すべきは、OPSDは実際にはGRPOよりも 低い 精度（52.49% vs 53.86%）であり、これは単純な自己蒸留が性能を低下させることを裏付けています。単純な線形結合であるGRPO+OPSD（52.91%）も改善が見られず、これは単に目的を組み合わせるだけでは不十分であり、根本的な再設計が必要であることを示しています。

## Results Figure5

図4. 200ステップにわたる学習過程。 (a) RLSDは、より高い報酬の限界に到達します。 (b) RLSDは、より高いエントロピー（探索の多様性）を維持します。 (c) 学習期間中、RLSDのクリッピングによるクレジット代入の変動は安定しています。

## Results Figure6

図5. トークンレベルのクレジットヒートマップ。 上（正しい軌跡）: RLSDは、重要なカウント/減算のステップにクレジットを集中させます。 下（誤った軌跡）: RLSDは、誤った関係式"3x = 28.5"に対する責任を特定し、エラーの原因を正しく特定します。

## Related

### 関連研究

## Related Rlvr

### RLVRにおける信用帰属問題.

## Related Rlvr Body

GRPO や類似の RLVR (Reinforcement Learning for Vocabulary Reduction) 手法は、すべてのトークンに均一なシーケンスレベルの利点を与えます。最近の研究では、モデル内部のプロキシ変数（エントロピー、不確実性、主要トークンの統計、および注意の重みなど）を用いて、より詳細な粒度での制御を目指しています。RLSD (Reinforcement Learning with Self-Distillation) は、自己蒸留教師からの特別な情報を使用しますが、これは漏洩を防ぐために、方向を示す信号ではなく、あくまで magnitude (大きさ) の信号としてのみ利用されます。

## Related Opd

### オンポリシー蒸留 (On-Policy Distillation)

## Related Opd Body

OPDは、より大規模な教師モデルを別に用意し、詳細なトークンレベルでの教師信号を提供することで、効率性を犠牲にしてより豊かな情報を提供します。OPSDは、特権情報を用いて、教師モデルと生徒モデルを同一のモデルに統合します。Self-Distilled Reasoner (Zhao et al., 2026) と MIMO-v2-Flash は、この分野における同時期の研究です。RLSDは、これらのアプローチとは異なり、自己蒸留の学習目標として分布の一致を放棄します。

## Conclusion Intro

### この研究は、オンポリシー自己蒸留 (OPSD) の根本的な限界を明らかにし、RLSD をその解決策として提案します。主なポイントは以下の3つです。

## Conclusion Bullet1

原因の特定： OPSDの分布マッチングという目的は、情報格差が存在する場合、構造的に適切ではなく、不可避的な相互情報量のギャップと、サンプルごとの勾配のずれを引き起こし、それが情報漏洩の原因となります。

## Conclusion Bullet2

RLSDが緊張を解消します： RLSDは、方向の決定には環境からの報酬を使用し、トークンごとの大きさの重みに対してのみ自己蒸留を行う（stop-gradientを使用）。これにより、RLSDは情報漏洩を完全に回避しつつ、密な信用割り当てを維持します。

## Conclusion Bullet3

強力な実験結果： RLSDは、5つのマルチモーダル推論ベンチマークにおいて最先端の性能を達成し、平均精度が56.18%と、ベースとなるLLMと比較して+4.69%向上し、GRPOと比較して+2.32%向上しました。

## Conclusion Limitations

### 制約事項と今後の課題

## Conclusion Limitations Body

この論文の実験は、Qwen3-VL-8B-Instructを用いて、マルチモーダルな推論タスクに焦点を当てています。今後の研究では、RLSDを純粋な言語推論モデル、大規模モデル、および多様なドメインで評価する必要があります。混合係数 λ とクリップ境界 ε_w は調整が必要であり、これらのハイパーパラメータに対する適応的な手法を導入することで、利便性が向上します。

## Appendix

### 付録 — 理論的性質

## Appendix Table

### 表A1：OPSDバリアントとRLSDの特性.