形式的な証明により、情報非対称性下での分布整合性は、解消不可能な相互情報量のギャップを引き起こし、その結果、OPSD(Ordered Probabilistic Sorting Device)において、特権情報の漏洩が構造的に避けられないことが示されています。
RLSDは、自己蒸留教師を「magnitude evaluator(大きさ評価器)」として再利用します。環境からの報酬が方向を決定し、特別な教師がトークンごとの更新の大きさを決定することで、情報漏洩を排除しつつ、豊富な情報を維持します。
RLSDは、5つのマルチモーダル推論ベンチマーク(MMMU、MathVista、MathVision、ZeroBench、Wemath)において、最も高い平均精度を達成しました。具体的には、GRPOと比較して平均+2.32%、Base LLMと比較して平均+4.69%の向上を見せています。
オンポリシー蒸留 (OPD) は、LLM コミュニティにおいて、広く採用されている学習パラダイムとなっています。このパラダイムでは、より大きなモデルを教師として使用し、サンプリングされた各軌跡に対して詳細で微細な信号を提供します。これに対し、検証可能な報酬に基づく強化学習 (RLVR) は、検証可能な結果からのみ疎な信号しか得られません。最近では、オンポリシー自己蒸留 (OPSD) が検討されており、これは同じモデルが教師と生徒の両方の役割を果たすもので、教師は特権的な情報を受け取り、自己進化を可能にします。本稿では、特権的な教師からのみ得られる学習信号は、深刻な情報漏洩を引き起こし、長期的な学習の安定性を損なうことを示します。我々は、自己蒸留に最適な条件を特定し、RLSD (RLVR with Self-Distillation) を提案します。RLSDでは、自己蒸留がトークンレベルでの更新量を決定し、RLVRが環境からのフィードバックに基づいて信頼性の高い更新方向を提供します。RLSDは、RLVRとOPSDの利点を同時に活用し、より高い収束性と優れた学習の安定性を実現します。
検証可能な報酬を用いた強化学習 (RLVR) 手法、例えば GRPO は、大規模な推論モデルの学習において中心的な役割を果たすようになりました。各軌道は、検証者から単一のスカラー報酬のみを受け取り—これは スパースな信号 です—そして、応答内のすべてのトークンは同じアドバンテージ推定値を使用するため、トークンレベルでの区別がありません。
LLM(大規模言語モデル)のための強化学習において、「スパース報酬」とは、モデルが応答全体に対して1つのフィードバック信号しか受け取らないことを意味します。具体的には、正解であれば✓、不正解であれば✗という、単一の評価です。応答に含まれるすべてのトークン(潜在的に数百個)が同じアドバンテージスコアを共有するため、モデルはどの特定のトークンが正解または不正解の原因となったのかを特定できません。これは、エッセイを最終的なスコアだけで評価し、文単位でのフィードバックを与えないのと似ています。
On-Policy Self-Distillation (OPSD)は、この問題を解決しようとする手法であり、教師(参照解答を受け取る)と生徒(独立して解答を生成する)の両方に同じモデルを使用します。しかし、これにより、根本的な非対称性が生じます。教師は生徒が推論時にアクセスできない、特権的な情報を持っているからです。
OPSDでトレーニングされたモデルは、推論時に利用できない特権情報に体系的に参照することがあります。 例えば、OPSDでトレーニングされたモデルは、次のような出力を生成する可能性があります: "標本平均が母集団平均から$1以内にあるかどうかを判断する必要があります...参照ソリューションが9つの値を使用しているという情報が与えられている..." — これは、モデルが知るべきではない参照解答を明示的に使用しています。 この情報漏洩は、トレーニング中に単調に増加し、その結果、パフォーマンスは10〜20ステップでピークに達し、その後低下します。
OPSDでは、同じモデルが同時に2つの役割を果たします。
これが「情報の非対称性」です。教師と生徒が異なる情報を持っています。問題点は、学習の目的が、生徒が教師のトークンごとの確率分布と一致するようにすることであることです。しかし、教師の分布には解答が含まれています。生徒が解答パターンを密かに暗記せずに、この一致を達成することはできません。これが「漏洩」を引き起こします。
| Method | Trajectory | Efficiency | Leakage Risk | Signal | Direction Anchoring |
|---|---|---|---|---|---|
| SFT | Off-policy | High | N/A | Rich | Teacher |
| RLVR (GRPO) | On-policy | High | N/A | Weak | Environment |
| OPD | On-policy | Low | N/A | Rich | Teacher |
| OPSD | On-policy | High | Severe | Rich | Teacher |
| RLSD (Ours) | On-policy | High | N/A | Rich | Environment |
RLVRの方向性に関する信頼性と、自己蒸留によるトークンレベルの詳細さを組み合わせる。
各ステップにおいて、Teacher Mode(参照解答 r を参照する)とStudent Mode(質問 x のみを参照する)における対数尤度の差を計算します。Δ_t = sg(log π_θ(y_t|x,r,y<t) − log π_θ(y_t|x,y<t))。この計算は、勾配を遮断することで、単なる重み付け信号として機能するように設計されています。
「stop-gradient」演算子 sg(·) は、教師側の計算における逆伝播を防止します。もしこれがなければ、教師側のロジットからの勾配信号がモデルの重みに逆流し、参照解答 r を符号化するようにモデルの重みが更新され、情報漏洩が発生します。sg(·) を使用することで、Δ_t は純粋に勾配の大きさを調整する 重みとして機能します。勾配の方向は依然として RLVR の環境からの報酬によって決定され、この報酬は r に関する知識を一切持っていません。
各トークンに、w_t = exp(sign(A)·Δ_t) という重みを割り当てます。ここで、A は RLVR から得られる、シーケンスレベルでのアドバンテージです。 トレースが正しい場合 (A > 0)、教師が支持するトークンはより大きな重みを受けます。 一方、トレースが誤っている場合 (A < 0)、それらのトークンはより強いペナルティを受けます。 これは、ベイズ的なクレジットアサインメントを実現するものです。
重みの公式 w_t = exp(sign(A)·Δ_t) は、自然なベイズ解釈を持っています。
A > 0 (正解) の場合、回答によって支持されるトークンは w_t > 1 となり、より多くの評価を得ます。A < 0 (誤り) の場合、それらのトークンはより強い責任を負います。これは、まさにきめ細かい評価の仕組みです。
PPOのクリッピングの考え方に従い、トークン重みを以下のように制限します: w̃_t = A・(1−λ) + λ・clip(w_t, 1−ε_w, 1+ε_w)。これにより、単一のトークンが過剰な信用を受け取るのを防ぎ、勾配爆発を回避します。補助的な蒸留損失は追加されず、シーケンスレベルでの信用を内部的に再分配するのみです。
Require: Policy π₀, dataset S={(xᵢ,rᵢ)}, verifier R(·,·), group size G, λ, ε_w
1: for each training step do
2: for each question x with privileged info r do
3: Sample G responses {y⁽¹⁾,...,y⁽ᴳ⁾} ~ π_θ(·|x)
4: // Sequence-level advantage from environment
5: Aᵢ = (R(x,y⁽ⁱ⁾) - μ_G) / σ_G [GRPO reward normalization]
6: // Token-level credit assignment via self-distillation
7: for each response y⁽ⁱ⁾ do
8: Compute teacher logits via forward pass with (x, r, y⁽ⁱ⁾)
9: Δₜ = sg(log π_θ(yₜ|x,r,y<ₜ) − log π_θ(yₜ|x,y<ₜ))
10: wₜ = exp(sign(Aᵢ)·Δₜ) [direction-aware weight]
11: w̃ₜ = Aᵢ·(1−λ) + λ·clip(wₜ, 1−ε_w, 1+ε_w)
12: end for
13: // Update policy maximizing E[∑ᵢ∑ₜ w̃ₜ·log π_θ(yₜ|x,y<ₜ)]
14: end for
15: end for
OPSD(最適輸送距離に基づく最適化手法)の経験的な失敗(情報漏洩、性能劣化、KLダイバージェンスの停滞)は、偶然ではありません。これらは、分布整合性の最適化目標における構造的な欠陥に起因するものです。このことを形式的に裏付ける重要な結果が2つあります。
OPSDの目的と、理想的なマージナル目的は、削減できない相互情報量の項によって正確に異なります。
方程式 L_OPSD = L* + I(Y_t; R | X, Y_<t) は、次のことを意味します。OPSDの学習目標は、常に、現在のトークンと優先的な回答との間の相互情報量によって正確に決まる理想的な目標値よりも大きい。
なぜこれが重要なのか? I(Y_t; R | X, Y_<t) を、「知識格差税」と考えることができます。これは、教師が次のトークンを予測するために、回答を知っていることがどれだけ重要であるかを表しています。この格差は、数学的に不可欠であり、学習者はこの限界を超えることができません。なぜなら、学習者は R に基づいて条件付けできないからです。
ビジネスのたとえ話: 経験豊富な同僚が顧客の予算を密かに知っている状態で、営業担当者を育成することを想像してください。担当者は、コミュニケーションのスタイルを模倣できますが、専門家の価格設定の決定には、本質的に機密情報が含まれています。担当者は、その機密情報へのアクセスがない限り、その格差を完全に埋めることはできません。
I(Y_t; R | X, Y_{<t}) という用語は、現在のトークンと、教師による提供された情報との間の条件付き相互情報量です。生徒は Y_{<t} に基づいて条件付けできないため、この差は不可分です。つまり、生徒は決して教師の目標に到達できません。これが、KLダイバージェンスが停滞する理由を説明します。生徒が周辺分布に近づくと、残りのギャップ I(·) が乗り越えられない障壁となります。
特権情報 *r* の具体的な実現形態について、サンプルごとの勾配は、有益なマージナルマッチング成分 g*(θ) と、*r* に特有の偏差 δ(θ; *r*) に分解されます。
勾配分解 g(θ;r) = g*(θ) + δ(θ;r) は、学習を2つの段階に分けます。
実用上の意味合い: OPSD は 一見 最初の方 (最初の10~20ステップ) で効果があるように見えますが、その後、性能が低下します。これにより、実際には長期的な学習を阻害しているにもかかわらず、この方法が有効であるという危険な錯覚が生じます。
期待されるずれはゼロ(E_r[δ] = 0)ですが、確率的勾配降下法は個々のサンプルに対して動作します。各ミニバッチに、rに依存するノイズが注入されます。学習初期段階では、これは問題ありません(有益な項が優勢です)。しかし、学習が進むにつれて、パス依存性の累積がモデルを、x → r の相関関係を符号化する領域へと導き、情報漏洩を引き起こします。
RLSDは、特権的な教師を用いて勾配の方向を設定しないことで、その繋がりを断ち切ります。代わりに、教師の評価は、ストップ・グラディエント操作を通じて、トークンごとの重み(大きさ)に統合されます。一方、RLVRの環境からの報酬が、勾配の方向の唯一の情報源となります。これにより、rに特有の偏差 δ(θ; r) が勾配から除去されます。
| Method | MMMU | MathVista | MathVision | ZeroBench | Wemath | Avg. |
|---|---|---|---|---|---|---|
| Base LLM | 62.44 | 73.80 | 47.37 | 19.76 | 54.10 | 51.49 |
| GRPO | 65.11 | 76.20 | 48.82 | 22.60 | 56.57 | 53.86 |
| OPSD | 63.82 | 75.10 | 47.53 | 21.06 | 54.95 | 52.49 |
| SDPO | 65.11 | 74.00 | 47.27 | 25.15 | 52.19 | 52.74 |
| GRPO+OPSD | 63.22 | 75.90 | 48.52 | 22.16 | 54.76 | 52.91 |
| RLSD (Ours) | 67.22 | 78.10 | 52.73 | 24.85 | 58.00 | 56.18 |
RLSDは、平均精度が最も高く、56.18%(4Kコンテキスト)を達成し、Base LLMよりも+4.69%、GRPOよりも+2.32%高い性能を示しました。注目すべきは、OPSDは実際にはGRPOよりも低い精度(52.49% vs 53.86%)であり、これは単純な自己蒸留が性能を低下させることを裏付けています。単純な線形結合であるGRPO+OPSD(52.91%)も改善が見られず、これは単に目的を組み合わせるだけでは不十分であり、根本的な再設計が必要であることを示しています。
これは直感に反する結果です。OPSD (平均52.49%) は、より多くの情報(正解データ)を利用しているにも関わらず、GRPO (平均53.86%) よりも性能が劣ります。Proposition 1 の分析が、その理由を説明しています。r 特有の勾配のずれ δ(θ;r) が学習中に蓄積し、モデルの意思決定境界を歪めてしまうのです。モデルは、推論時に存在しない正解データのパターンに依存することを学習してしまうため、GRPOと比較して性能が低下します。GRPOは、そのような歪みが発生したことがありません。より多くの情報 + 間違った学習目標 = より悪い結果。
この研究は、オンポリシー自己蒸留 (OPSD) の根本的な限界を明らかにし、RLSD をその解決策として提案します。主なポイントは以下の3つです。
この論文の実験は、Qwen3-VL-8B-Instructを用いて、マルチモーダルな推論タスクに焦点を当てています。今後の研究では、RLSDを純粋な言語推論モデル、大規模モデル、および多様なドメインで評価する必要があります。混合係数 λ とクリップ境界 ε_w は調整が必要であり、これらのハイパーパラメータに対する適応的な手法を導入することで、利便性が向上します。
| Property | OPSD (Frozen) | OPSD (Online) | RLSD |
|---|---|---|---|
| (a) Objective stability | ✓ | ✗ | ✓ |
| (b) Sustained improvement | ✗ | ✓ | ✓ |
| (c) Leakage-free training | ✗ | ✗ | ✓ |