---
arxiv_id: "2604.11626"
title: "RationalRewards: 推論報酬が視覚生成をトレーニング時・テスト時の両方で向上させる"
authors:
  - "Haozhe Wang"
  - "Cong Wei"
  - "Weiming Ren"
  - "Jiaming Liu"
  - "Fangzhen Lin"
  - "Wenhu Chen"
difficulty: "intermediate"
tags:
  - "reward-models"
  - "visual-generation"
  - "reinforcement-learning"
  - "test-time-scaling"
  - "VLM"
published_at: "2026-04-13"
flecto_url: "https://flecto.zer0ai.dev/ja/papers/2604.11626/"
lang: "ja"
---

## RationalRewards: 推論報酬が視覚生成をトレーニング時・テスト時の両方で向上させる

## Haozhe Wang、Cong Wei、Weiming Ren、Jiaming Liu、Fangzhen Lin、Wenhu Chen

## 2026年4月13日公開

## 概要

## この論文の内容

視覚生成のための多くの報酬モデルは、複雑な人間の好みを単一の不透明なスコアに圧縮し、その好みの背後にある理由を無視しています。RationalRewards は、この状況を改善するために、報酬モデルに、スコアリングする前に、明示的な、多次元的な評価を行うように学習させます。このモデルは、PARROT（Preference-Anchored Rationalization）という革新的なフレームワークを使用しており、このフレームワークでは、理由付けを、対比データから推論される潜在変数として扱います。これにより、報酬モデルは、単なる受動的な評価ツールから、アクティブな最適化ツールへと変貌し、以下の2つの相補的な戦略を可能にします。RL-based fine-tuning（強化学習ベースの微調整）は、パラメータ空間で行われ、Generate-Critique-Refine loops（生成-評価-改善ループ）は、プロンプト空間で行われます。注目すべきは、テスト時のプロンプト調整アプローチが、いくつかのベンチマークにおいて、パラメータの更新なしに、RLによる微調整と同等またはそれ以上の性能を発揮することです。

## 推論に基づく報酬

多次元の構造化された評価手法が、不透明な数値スコアに取って代わり、テキストの忠実性、画像の忠実性、視覚品質、およびテキストのレンダリングに関する、説明可能な評価を提供します。

## PARROT Framework

報酬モデルを、根拠（rationale）を潜在変数として扱い、ELBO（Evidence Lower Bound）を3つの解釈可能な段階に分解することで学習する、変分推論に基づくフレームワーク。

## デュアル空間最適化

パラメータ空間のチューニング（トレーニング時間）をRL（強化学習）を用いて行い、また、Generate-Critique-Refineのループ（テスト時間）を用いてプロンプト空間のチューニングを行うことで、パラメータの更新なしに、計算資源と品質のトレードオフを実現します。

## はじめに

## スカラー報酬モデルの問題点

視覚生成技術がフォトリアリスティックで、指示に従った出力へと進化するにつれて、これらの出力を評価する報酬モデルが、さらなる進歩を阻む大きな制約となっています。しかし、ほとんどの報酬モデルは、単一の数値で構成されるブラックボックスであり、多次元の人間の判断を単一の数値に圧縮します。この不透明性が、2つの重要な問題を引き起こします。

まず、reward hacking（報酬ハッキング）：モデルは、スカラー信号のバイアスを悪用して、真に品質が向上しなくてもスコアを高くしようと学習します。次に、スカラースコアは、実行可能なフィードバックを提供しません。これらは、生成モデルに対して何かが間違っていることを示すだけで、何が間違っているのか、どのように修正するのかを教えてくれません。RationalRewardsは、これらの問題を、スコアを算出する前に構造化された多次元の批判を生成することで解決します。これにより、報酬モデルは、評価者と最適化ツールの両方として機能することができます。

パラメータ空間： 多次元の構造化された根拠は、意味的に裏付けられた、詳細なフィードバックを強化学習に提供し、報酬ハッキングを起こしやすい不透明なスカラー勾配を置き換えます。

プロンプト改善: 自然言語による説明は、具体的な問題点を特定し、それらを修正されたプロンプトに変換するために、Generate-Critique-Refine（生成-評価-改善）のサイクルを活用します。これは、テスト段階でのみ行われる介入です。

最先端技術： 80億パラメータのモデルが、オープンソースの報酬モデルの中で最先端の好みの予測精度を達成しており、Gemini-2.5-Pro（はるかに大規模なプロプライエタリモデル）と匹敵する性能を発揮します。

図1：3つの評価スイートにおける、RL（強化学習）とプロンプトチューニングによる改善効果のベンチマーク比較。

図1: 学習時の強化学習 (RL) とテスト時のプロンプトチューニング (PT) を、テキストと画像から画像への生成ベンチマークにおいて、RationalRewardsを用いて実施した結果。 (a) ImgEdit-Bench 全体: RationalRewardsを用いたRLは、既存のオープンソースジェネレーターよりも優れた性能を発揮する。 (b) GEdit-Bench-EN: RLとPTを組み合わせることで、8.33というスコアを達成する。 (c) UniGenBench++: テキストから画像への生成における、カテゴリごとの改善状況を示すレーダーチャート。

## 主な結果

PARROTを用いてQwen3-VL-Instruct-8Bをベースに構築されたRationalRewardsは、オープンソースのリワードモデルの中で最先端の嗜好予測性能を達成しており、Gemini-2.5-Proと競合するレベルです。また、RLにおけるリワードとして、Qwen-ImageやFlux-Kontextのジェネレーターを継続的に改善し、GPT-Image-1に匹敵する性能を発揮します。テスト時のプロンプトチューニングのアプローチは、いくつかのベンチマークにおいて、計算コストの高いRLファインチューニングと同等またはそれ以上の性能を発揮します。しかも、パラメータの更新は一切行わずに。

## 方法

## PARROT: Preference-Anchored Rationalization

PARROTは、スコアを算出する前に、明示的で多次元的な根拠を生成するための報酬モデルを訓練します。評価項目には、テキストの正確性, 物理的および視覚的な品質, 画像の正確性, および テキストのレンダリング品質が含まれます。真の根拠を大規模にアノテーションすることは非常にコストがかかるため、PARROTは、変分的な目的関数を用いて、ペアごとの嗜好データから推論される潜在変数として根拠を定式化します。その結果得られるELBOは、3つの項に分解され、それぞれがトレーニングの段階に対応しています。

図4：ELBO分解を示すPARROT三相パイプライン。

図4： PARROTフレームワーク。ELBOは3つの項に分解され、それぞれが異なるフェーズによって最適化されます。フェーズ1（後知恵）：Teacher VLMが、与えられた嗜好ラベルに基づいて理由を生成します。フェーズ2（整合性チェック）：生成された理由が、予測的に十分であるか検証されます。フェーズ3（先見性）：Student VLMは、嗜好ラベルなしで理由を生成することを学習します。

## フェーズ1：後知恵に基づく根拠の生成

Teacher VLMは、比較タプル（2つの画像＋ユーザーからのリクエスト）と、正解の評価ラベルを受け取ります。このラベルは、教師の分析を正しい判断へと導く評価の基準点として機能し、条件なしの生成よりも高品質な確率分布を生成します。教師は、4つの品質次元にわたって構造化された評価を行い、スコアと根拠を提供します。

## フェーズ2：予測の一貫性フィルタリング

フェーズ1は、言語学的に妥当な根拠を生成しますが、妥当性だけでは有用性を保証するものではありません。フェーズ2では、予測可能性の充足性を強制します。具体的には、教師に対して、優先順位のラベルなしで根拠を再度質問し、元の優先順位を正しく予測する必要があります。この整合性チェックを通過した根拠のみが保持され、誤った情報や情報量が不十分な根拠が排除されます。

## フェーズ3：先見性に基づく学生モデルの学習

より小型のStudent VLM（80億パラメータ）は、フィルタリングされた説明文を用いて教師あり微調整を行い、好みのラベルなしで批判文を生成します。これにより、事後分布と事前分布のKLダイバージェンスが最小化され、Studentモデルは推論時に画像のみから評価理由を生成できるようになります。Studentモデルは、ペアごとのデータとポイントごとのデータを組み合わせて学習されます。

## 要点：推論報酬がリワードハッキングに強い理由

スカラー報酬モデルは、評価を単一の数値に圧縮しますが、この数値はバイアスを利用することで意図的に操作される可能性があります。一方、多次元で構造化された根拠（rationales）は、内部整合性のメカニズムを提供します。つまり、根拠はスコアと一致しなければならず、スコアはすべての次元で一貫していなければなりません。もしモデルが特定の次元を意図的に高くしようとしても、その根拠は、なぜそうなるのかを説明する必要があり、これにより不正行為を検出し、ペナルティを科すことが可能になります。このような構造的な透明性が、推論報酬の堅牢性をもたらします。

図3：強化学習の訓練中に、スカラー報酬と合理的な報酬を用いた場合の報酬ハッキングの比較。

図3： RL（強化学習）の学習比較。 上段（RationalRewards）：画像品質が安定した報酬曲線とともに着実に向上。 下段（Scalar Rewards）：報酬の不正利用が発生—学習報酬は増加するが、アーティファクトや色調の問題による品質の低下が見られる。

## 最適化

## 評価者から最適化へ：二重空間最適化 (Dual-Space Optimization)

RationalRewardsは、単なる評価ツールではありません。これは、2つの補完的な領域において、アクティブな最適化ツールとして機能します。 この二重の構成は、テスト時の計算リソースのスケーリングと関連しており、プロンプト空間の最適化は、パラメータ空間でのトレーニングとは独立した軸を提供し、パラメータが固定されたジェネレーターに対して、破滅的な忘却のリスクなしに、生成品質を向上させることができます。

図2：トレーニング時間における強化学習（Training Time RL）と、テスト時間におけるプロンプトチューニング（Test Time Prompt Tuning）の経路を示すアーキテクチャの概要。

図2: RationalRewardsは、二重空間の最適化を可能にします。(a) トレーニング時における強化学習: 多次元の報酬信号は、品質の各次元ごとに異なる勾配情報を提供します。(b) テスト時におけるプロンプト調整: 自然言語による批判が、再生成のための洗練されたプロンプトに変換されます。

## パラメータ空間 (トレーニング時間)

多次元のスコアは、強化学習において、意味的に分解された報酬信号を提供します。各品質次元（テキストの忠実性、画像の忠実性、視覚品質、テキストのレンダリング）は、特定の勾配情報を提供し、単一の不透明なスカラーを追いかけるのではなく、より詳細な最適化を可能にします。この密度の高いフィードバックは、生成モデルが何を改善すべきか、そしてなぜ改善すべきかを理解するのに役立ちます。

## プロンプトスペース（テスト時間）

自然言語による説明は、生成された画像における具体的な欠点を特定します。例えば、「指示には傘を使用しないと書かれているが、画像には傘が含まれている」といったものです。これらの批判は、生成-批判-改善 (Generate-Critique-Refine, GCR) ループにおいて、特定のプロンプトの修正に翻訳されます。この純粋にテスト時に行われる介入は、パラメータの更新を必要とせず、どの固定された生成モデルにも適用でき、計算資源を品質と交換するものです。

## 概要：訓練された報酬モデル vs. 汎用的なVLM評価モデル

なぜ、高性能な汎用的なVLM（例えば、Qwen3-VL-32B）を評価者として使用しないのでしょうか？ 8Bモデルの方が実用的な利点があることに加えて、根本的な理由があります。それは、嗜好データを用いた構造化された学習が、汎用的なVLMが持たないキャリブレーションされた判断基準を学習させるからです。汎用モデルは批判を述べることができますが、重要度の調整ができません。そのため、軽微な問題に対して過剰なペナルティを与えたり、重大な欠陥を軽視したりする傾向があります。PARROTの嗜好性に基づく学習は、人間の実際の嗜好に基づいて判断を行うことで、この問題を解決します。

## テスト時スケーリング

## テスト時のスケーリング (Test-Time Scaling)

Generate-Critique-Refine (GCR) ループは、画像生成において テスト時の計算リソースのスケーリング を提供します。初期生成後、RationalRewards が出力に対して分析を行い、具体的な欠点を詳細な根拠とともに特定します。これらの分析結果はプロンプトの修正に変換され、ジェネレーターが再生成を行います。このテスト時のみに適用される手法は、パラメータの更新を必要とせず、任意の固定されたジェネレーター に適用可能です。これにより、現在のジェネレーターには潜在的な能力が内在しており、最適でないプロンプトではその能力が引き出されていないことが示されます。

図7: レインシーンのプロンプトを使用した、生成-評価-改善のループの例。

図7： 具体的なGCRの例。プロンプトは「傘なし」という条件で、ロマンチックな雨の風景を要求しています。最初の生成結果はこの制約に違反しています。RationalRewardsは、多角的な推論を用いてこの違反を批判し、再生成のために制約を明示的に強化したプロンプトを生成します。

## 要点：推論報酬がテスト時スケーリングを可能にする理由

ジェネレーターは、しばしば高品質な出力を行うための潜在能力を持っていますが、最適化されていないプロンプトによってその能力が十分に引き出されていないことがあります。RationalRewardsは、重みの変更なしに、具体的なフィードバックを通じてこの潜在能力を解放します。スカラー報酬は、何が問題なのかを特定することはできず、単に「何か」がうまくいかなかったという情報しか提供できません。構造化された推論は、具体的な問題点を特定し、具体的なプロンプトの修正方法を提案します。これにより、テスト時の計算リソースの効率的な利用が可能になります。

## 結果

## 実験と結果

RationalRewards は、画像編集タスクとテキストから画像を生成するタスクの両方で評価されます。学習データには、EditReward (画像編集) からの 30,000 件のクエリ-好みのペアと、ImageRewardDB (テキストから画像) からの 50,000 件のペアが含まれます。Teacher は Qwen3-VL-32B-Instruct であり、Student のバックボーンは Qwen3-VL-8B-Instruct です。

## ImgEdit-Bench

## 画像編集 (Qwen-Image +RL+PT)

## GEdit-Bench-EN

## 一般的な編集 (Qwen-Image + RL + PT)

## UniGenBench++

## テキストから画像を生成 (Qwen-Image [RL])

## 嗜好モデリングの精度

8BパラメータのRationalRewardsは、全てのオープンソースのスケール報酬モデルを大幅に上回ります。 これは、MMRB2、EditReward-Bench、GenAI-Benchの3つのベンチマークすべてにおいて、ラベルノイズに対処するための複雑な損失設計を必要とせずに、その性能を発揮します。 また、はるかに大規模なプロプライエタリモデルであるGemini-2.5-Proにも匹敵する性能を持っています。 アブレーション実験の結果、PARROTの変分フレームワークは、同じ32Bの教師モデルからの直接的なSFT蒸留よりも優れた性能を発揮し、モデルの規模だけでなく、構造化されたトレーニングパイプラインが性能向上に大きく貢献していることを示しています。

表1：複数のベンチマークにおける、評価者としての報酬モデルの比較。

表 1: リワードモデルの比較。オープンソースモデルの中で、RationalRewards (8B) は、MMRB2、EditReward-Bench、およびGenAI-Benchにおいて最も高いスコアを達成しています。

## デュアルスペース最適化の結果

RL with RationalRewards は、画像編集とテキストから画像への生成の両方において、一貫した改善をもたらします。注目すべき発見として、推論時間におけるプロンプト調整が、計算コストの高い RL と同等またはそれ以上の効果を発揮することが挙げられます。ImgEdit-Bench において、プロンプト調整は、RL で調整された Flux モデルの性能を 3.84 から 4.01 に向上させました。これは、プロンプト空間の最適化が、パラメータ空間での学習とは異なる、補完的なアプローチであることを支持するものです。

表2: UniGenBench++におけるテキストから画像への強化学習（RL）の性能評価（アブレーション実験）。

表2: UniGenBench++におけるテキストから画像への強化学習におけるRationalRewardsの除去実験。スカラー報酬（MultiReward）と汎用的な推論報酬（Qwen3-VL-32B）を比較。

表3：画像編集タスクにおける、デュアル空間最適化の除去実験の結果。

表3： RationalRewardsを編集タスクにおけるデュアル空間最適化手法として使用した場合の効果の検証。Flux-KontextとQwen-Imageの両方のジェネレーターに対する、プロンプトチューニング（PT）と強化学習（RL）の結果。

## 定性的結果

図6：画像編集および生成の改善に関する定性的比較。

図6： RL（強化学習）とプロンプトチューニングによる、多様な編集および生成タスクにおける定性的改善。各行は、元の画像、ベースとなる出力、およびRLとプロンプトチューニング後の出力を示しています。

## 評価

## ポイントワイズスコアリングの実例

図5：編集タスクにおける、複数のジェネレーターに対するポイントごとのスコアの例。

図5： RationalRewardsは、生成された各画像を、テキストの一貫性、画像の忠実性、物理的/視覚的品質、テキストのレンダリングなど、複数の品質次元にわたって評価し、数値スコアを付与します。この多次元評価により、強化学習のトレーニングとプロンプトの改善の両方に対して、的確なフィードバックを提供できます。

## 用途

## RationalRewardsの4つの応用

## 図8：RationalRewardsの4つの応用シナリオ

図8： RationalRewardsは、データキュレーションからリアルタイムの評価可視化まで、4つの補完的な応用シナリオにおいて、汎用性の高いツールとして機能します。

## データフィルタリング

多次元のスコアと説明可能な根拠を用いた、データキュレーションのための自動品質管理システム。品質の低いトレーニングデータは、透明性をもって特定され、フィルタリングされます。

## RL報酬シグナル

密で、意味的に分解された報酬信号が、詳細な強化学習の最適化を促進します。各品質次元は、単一の不透明なスカラーではなく、ターゲットを絞った勾配情報を提供します。

## プロンプトの書き換え

GCRループは、推論時の計算コストを生成品質の向上とトレードオフにします。パラメータの更新や、破滅的な忘却のリスクなしに、任意の固定されたジェネレーターに適用可能です。

## 批評の可視化

Grounding DINO+SAMとの連携により、生成された画像内で特定された欠陥が特定され、画像内の特定領域に根ざした具体的な根拠となる視覚的な証拠が提供されます。

## 背景

## 関連研究

## 視覚生成のための報酬モデル

標準的なパラダイムは、大規模な人間の嗜好データセットで学習されたスカラー報酬モデルに基づいています。ImageReward、VideoReward、PickScore、およびUnifiedRewardのようなモデルは、バイナリまたはランキング損失を用いて学習された単一のスカラー値を生成します。これらのモデルは、基本的な嗜好予測には効果的ですが、判断の背後にある理由を無視し、報酬ハッキングに対して脆弱です。最近の研究であるVLMRM、RM-RL、およびVideo-SALMONNは、推論能力を組み込もうと試みていますが、いずれもRationalRewardsが提供するような変分フレームワークと二重空間最適化を提供していません。

## 視覚生成におけるトレーニング時・テスト時スケーリング

最近の取り組みとして、FlowGRPO、DanceGRPO、Blip30-Next、およびDiffusionNFTなどが、強化学習（RL）を画像生成のトレーニングに統合することに成功しています。一方、テスト段階における計算のスケーリングは、言語モデルにおいては広く研究されていますが、画像生成においてはまだ発展途上です。RationalRewardsは、構造化された推論が、画像生成器のテスト段階における効果的な最適化を可能にすることを示し、パラメータ空間でのトレーニングを、プロンプト空間のアプローチで補完します。

## 結論

## 結論

RationalRewardsは、不透明なスカラー評価を、構造化された、多次元的な思考プロセスに基づく批判に置き換えます。PARROTフレームワークは、合理性を、容易に入手可能なペアワイズの好みデータから抽出できる潜在変数として扱うことで、この問題を解決します。

8Bパラメータのモデルは、オープンソースのリワードモデルの中で、最先端の好みの予測精度を達成しており、はるかに大規模なプロプライエタリモデルにも匹敵します。多次元のリワードは、スカラーモデルでは提供できない内部整合性メカニズムを通じて、リワードハッキングへの耐性を持ちます。

おそらく最も注目すべき点は、Generate-Critique-Refine ループ—これはパラメータの更新を必要としない、純粋にテスト時に行われる手法—が、いくつかのベンチマークにおいて、強化学習（RL）ベースのファインチューニングと同等またはそれ以上の性能を示していることです。この結果は、現在の生成モデルが潜在的な能力を秘めているものの、最適ではないプロンプトではその能力を引き出すことができず、構造化された推論がその潜在能力を解き放つ鍵となるという仮説を強く裏付けています。

## キーワード

## 参考文献（23件の主要な参考文献）