← Flecto
arXiv:2603.25502v1 [cs.CV]  ·  26 Mar 2026

RealRestorer: 大規模な画像編集モデルを用いた、汎用的な実世界画像修復への取り組み

Yufeng Yang1,2   Xianfang Zeng2,†   Zhangqi Jiang2   Fukun Yin2   Jianzhuang Liu3   Wei Cheng2

Jinghong Lan2   Shiyu Liu2   Yuqi Peng3   Gang Yu2,‡   Shifeng Chen3,4,‡

1Southern University of Science and Technology   2StepFun   3Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences   4Shenzhen University of Advanced Technology

† leads this project; ‡ Corresponding authors.

概要

実世界の画像修復がなぜ難しいのか?

多くの修復モデルは合成劣化(クリーン画像にガウスぼかしをかけるなど)で訓練され、同じ合成テストセットで評価されます。実世界の劣化(カメラブレ、SNSによる圧縮、屋外のもや)は合成パイプラインでは完全に再現できません。この合成→実世界のドメインギャップにより、ベンチマークでPSNR最高値を達成したモデルが実写真では目に見えて失敗することがあります。

画像修復は、自動運転や物体検出などの下流タスクにとって非常に重要です。しかし、既存の修復モデルは、トレーニングデータの規模と分布によって制限され、現実世界のシナリオへの汎化性能が低いことがよくあります。最近、大規模な画像編集モデルは、修復タスクにおいて優れた汎化能力を示しており、特にNano Banana Proのようなクローズドソースモデルは、画像を修復しながら一貫性を保つことができます。しかし、そのような大規模な汎用モデルで高い性能を達成するには、大量のデータと計算コストが必要です。 この問題を解決するために、9つの一般的な現実世界の劣化タイプをカバーする大規模なデータセットを構築し、最先端のオープンソースモデルをトレーニングすることで、クローズドソースの代替モデルとの差を縮めました。 さらに、464枚の現実世界の劣化画像を含む、劣化除去と一貫性維持に焦点を当てた評価指標であるRealIR-Benchを導入しました。広範な実験により、当社のモデルがオープンソース手法の中で最も優れた性能を発揮し、最先端の結果を達成することが示されました。

主要な貢献

RealRestorer モデル

オープンソースの、実世界の画像修復モデルであり、最先端の性能を達成し、クローズドソースのシステムと比較して高い性能を発揮します。Step1X-Edit をベースに、9種類の劣化タスクでファインチューニングされています。

大規模データパイプライン

9種類の劣化を網羅する、高品質な劣化合成パイプラインです。165万以上のペアになった学習サンプルを含み、合成データと実世界の劣化データを組み合わせ、詳細なノイズモデリングとセグメントを意識した摂動を行います。

RealIR-Bench

9種類の劣化カテゴリーに分類された、464枚の実世界の劣化画像を含む新しいベンチマークです。劣化除去能力とコンテンツの一貫性維持の両方を測定する、カスタマイズされた非参照評価指標を使用しています。

Method: RealRestorer

アーキテクチャとトレーニング戦略

RealRestorer は、Diffusion in Transformer (DiT) をベースとした、実用的な汎用画像編集フレームワークである Step1X-Edit をファインチューニングします。このモデルは、QwenVL テキストエンコーダーを使用して、ノイズ除去パスに高レベルのセマンティック情報を注入し、セマンティック情報とノイズ、および条件付き入力画像を処理するためのデュアルストリーム設計を採用しています。参照画像と出力画像はどちらも Flux-VAE を使用してエンコードされます。

DiT(Diffusion in Transformer)バックボーンとは?

従来の拡散モデルはU-Netをノイズ除去ネットワークに使用します。DiTはこれをVision Transformerに置き換え、画像をパッチに分割し、位置埋め込みを追加し、トランスフォーマーの自己注意ブロックがノイズのあるパッチを段階的に洗練します。トランスフォーマーはモデル規模に対してより良くスケールし、マルチモーダル条件付け(テキスト・参照画像)との統合が優れています。そのためFLUX、SD3、Step1Xなどの最新フロンティア画像モデルは全てDiTバックボーンを採用しています。

トレーニングは、2段階で行われます。

  1. Transfer Training Stage — 1.5M の合成ペアサンプルを使用して、画像編集から画像修復への高レベルの知識と事前知識を転送します。学習率は 1×10-5 で固定され、グローバルバッチサイズは 16 です。解像度は 1024×1024 に固定されます。
  2. Supervised Fine-tuning Stage — 80K の実世界の劣化データペアを組み込み、修復の忠実度をさらに向上させます。コサインアニーリング学習率スケジュール、Progressively-Mixed トレーニング戦略(合成データと実データ比率 2:8)、および SingleStreamBlocks の最初の 1/4 をフリーズして安定性を確保します。

なぜ2段階訓練が必要か?

  • 段階1(150万件の合成ペア):9種類全ての劣化タイプで「劣化→クリーン」を学習。編集モデルの生成的事前知識を転用:「スタイルを変える」の代わりに「この劣化を除去する」を学習させます。
  • 段階2(8万件の実データペア):本物の実世界劣化写真でファインチューニング。実劣化は複合的(例:暗い+ぼけている)で合成データでは再現できないロバスト性を獲得します。
  • 段階2のみでは不十分な理由:段階1の広い事前知識なしでは8万件で深刻な過学習が発生。アブレーションで確認:実データのみではオブジェクト変形・非現実的な強調が起きます。

すべての実験は、8 台の NVIDIA H800 GPU で行われます。トレーニング全体のプロセスはおよそ 1 日かかります。

大規模な合成劣化データパイプラインの概要。9 種類の劣化 (Blur、Compression、Moiré、Low-light、Noise、Flare、Reflection、Haze、Rain) を示し、クリーンな画像から劣化画像への合成フローを、VLMs Filter、UniDemoire、Retinexformer、Real-ESRGAN、SAM3、SynNet、および Intel Labs の深度推定などのさまざまなツールを使用して示しています。
Figure 2. 大規模な合成劣化データパイプラインの概要。9 種類の代表的な劣化が網羅されています。以前の合成データのみを使用したパイプラインと比較して、このフレームワークでは、詳細なノイズモデリング、セグメント認識の摂動、および Web スタイルの劣化プロセスが組み込まれています。
0 Total Training Pairs
0 Synthetic Pairs
0 Real-World Pairs
9 Degradation Types

Degradation types: Rain · Blur · Low-light · Haze · Reflection · Flare · Moiré · Noise · Compression

2段階トレーニング分析

このグラフは、トレーニングステップ数ごとの RealIR-Bench での Final Score (FS) のパフォーマンスを示しています。Transfer Training Stage (青) では、モデルは基本的な修復能力を急速に獲得し、約 2,000 ステップで FS ≈ 0.122 に達した後、合成データの多様性の制限により低下します。

実世界のデータを使用した Supervised Fine-tuning Stage (紫) は、Transfer Training のピークをすぐに上回り、改善を続け、約 2,500 ステップで FS ≈ 0.145 に達します。このポイントを超えると、実世界のデータへの過学習を避けるために、早期終了を行います。

Progressively-Mixed トレーニング戦略(合成データと実データを 2:8 の比率で組み合わせる)は、過学習を防ぎながら、タスク間のロバスト性を維持します。アブレーションによって、この戦略を削除すると FS が 0.004 ポイント低下することが確認されました。

トレーニングステップ数ごとの Final Score (FS) のパフォーマンスを示す折れ線グラフ。青い線:合成データを使用した Transfer Training は、FS が 0.122 に達し、その後低下します。紫色の線:実世界の劣化データを使用した Supervised Fine-tuning は、FS が 0.145 に上昇します。破線は過学習の開始を示します。
Figure 4. トレーニングステップ数ごとのモデルのパフォーマンス (FS)。青:合成データを使用した Transfer Training。紫:実世界のデータを使用した Supervised Fine-tuning。破線は過学習の開始を示します。

RealIR-Bench: 評価ベンチマーク

従来の画像修復ベンチマークは、主に合成されたノイズを含む単一の劣化タスクに焦点を当てており、現実世界のアプリケーションにおけるモデルの性能を評価するには不十分です。現実世界の劣化条件下での修復を適切に評価するために、我々はRealIR-Benchを構築しました。

  • 464枚の参照なし劣化画像を、インターネットから収集したものであり、合成されたものではありません。
  • 9つの劣化カテゴリをカバー:ぼかし、雨、ノイズ、低照度、モアレ、霞、圧縮アーティファクト、反射、フレア。
  • 手動によるフィルタリングにより、品質管理と、シーンの内容および劣化の程度における多様性を確保しています。

評価指標

修復の効果とコンテンツの忠実性を評価するために、2つの補完的な指標を使用します。

  • Restoration Score (RS ↑) — VLMベース(Qwen3-VL-8B-Instruct)による、0~5のスケールでの劣化の深刻度評価。修復後の劣化レベルの改善値として計算されます。
  • LPIPS (LPS ↓) — 劣化入力画像と修復された出力画像間のコンテンツの一貫性を測定する、知覚的な類似性指標。

FS = 0.2 × (1 − LPS) × RS

FSは、修復の改善とコンテンツの保存の両方を総合的に反映しています。どちらかの側面でパフォーマンスが低いと、全体的なスコアが低下します。

PSNR/SSIMとは異なり、RealIR-Benchは、クリーンな参照ペアを使用せずに、本物の現実世界の画像で評価を行います。これにより、修復モデルのより実践的で包括的な評価が可能になります。

なぜPSNR・SSIMが実世界修復の評価に不十分か

PSNRとSSIMはどちらも比較用のクリーン参照画像を必要とします。実世界の劣化写真にはそのような参照が存在しません。また、劣化が軽微なら入力をそのまま返すだけで高いPSNRが得られます。RealIR-BenchのVLMベースのRestoration Scoreは劣化が実際に除去されたかを直接判定し、LPIPSはコンテンツが幻覚・改変されていないかを確認します。

RealIR-Benchからのサンプル。9つのカテゴリ(ぼかし、圧縮、モアレ、低照度、ノイズ、フレア、霞、雨、反射)からの劣化画像と、英語と中国語の評価プロンプトの例。
図8. RealIR-Benchからのサンプル。各劣化カテゴリは、固定されたバイリンガル(英語/中国語)プロンプトを使用して評価されます。このベンチマークは、9つのすべての劣化タイプにわたる多様な現実世界のシーンをカバーしています。

実験結果

ファイナルスコア式の理解:FS = 0.2 × (1 − LPS) × RS

LPIPSは0(入力と同一)〜1(完全に異なる)の範囲。(1-LPS)はコンテンツ保存を報酬として与えます。RSはVLMによる劣化除去スコア(0〜5)です。積の形のため両方が良くなければならない:劣化を全部除去してもコンテンツが歪めば低(1-LPS)でペナルティ、コンテンツ完全保存でも何もしなければ低RSでペナルティ。係数0.2は典型的なモデルスコアが0.1〜0.15程度になるよう正規化しています。

RealRestorer は、RealIR-Bench において、すべてのオープンソースモデルの中で 1位 を獲得しました (9タスクの平均で FS = 0.146)。 Nano Banana Pro (FS = 0.153) との差をわずか 0.007ポイント にまで縮め、 主要なクローズドソースの商用システムと遜色ない性能を達成しました。

RealIR-Bench における質的な比較

9つの画像編集モデルを9種類の劣化タイプごとに比較した画像。行:ぼかし、圧縮、モアレ、暗所、ノイズ、フレア、反射、霧、雨。列:劣化画像、RealRestorer (当社)、Seedream 4.5、Nano Banana Pro、GPT-Image-1.5、Step1X-Edit、FLUX.1-Kontext-dev、Qwen-Image-Edit-2511、LongCat-Image-Edit。
図3. 9種類の現実世界の劣化に対する、最先端の画像編集モデルとの比較。 RealRestorer (当社) は、他のオープンソース手法と比較して、視覚的にクリーンで一貫性のある修復結果を生成し、主要なクローズドソースシステムと競争力のある品質を達成しています。 詳細は拡大してご覧ください。

表1:定量的な結果 — 雨、ぼかし除去、暗所、霧、反射

雨除去、ぼかし除去、暗所補正、霧除去、反射除去タスクのLPIPS、RS、およびFSスコアを示す定量比較表。モデル:Nano Banana Pro、GPT-Image-1.5、Seedream 4.5、LongCat-Image-Edit、Qwen-Image-Edit-2511、FLUX.1-Kontext-dev、Step1X-Edit、RealRestorer。最良の結果は太字、次善の結果は下線付き。オープンソースの最良/次善はそれぞれ黄色/青色で強調。
表1. Rain Removal、Deblurring、Low-light Enhancement、Haze Removal、および Reflection Removal (RealIR-Bench) における定量的な比較。 最良の結果:太字;次善の結果:下線付き。 オープンソースの最良/次善は、それぞれ黄色/青色で強調表示されています。

表2:定量的な結果 — フレア除去、モアレ、ノイズ除去、圧縮 + 9タスク平均

フレア除去、モアレ除去、ノイズ除去、および圧縮補正タスクの定量比較表、および9タスク全体の平均(Avg Total)。RealRestorerはFS 0.146の平均値を達成し、オープンソースモデルの中で1位を獲得。
表2. Deflare、Moiré Pattern Removal、Denoise、および Compression Restoration、および9タスク全体の平均における定量的な比較。 RealRestorerは、FS = 0.146の平均値を達成し、オープンソース手法の中で #1 にランクインしています。

表3:FoundIRデータセットにおけるゼロショット汎化性能

ぼかし、雨、雨粒、ノイズ、暗所、霧、および圧縮タスクのFoundIRデータセットにおけるPSNRおよびSSIMスコアを示す定量比較。RealRestorerは、7種類の劣化のうち5種類で最高のPSNRスコアを達成。
表3. さまざまな現実世界の劣化(PSNR ↑、SSIM ↑)に対する、FoundIRデータセットにおける定量的な比較。 RealRestorerは、7種類の劣化のうち5種類で最高のPSNRスコアを達成し、強力なゼロショット汎化性能を示しています。

アブレーションスタディ

提案された二段階のトレーニング戦略の貢献度を検証するために、著者らは、合成劣化データのみ、実世界の劣化データのみ、そして提案された完全な戦略を使用してモデルをトレーニングしました。

主な発見

  1. 転移学習のみを使用した場合、FS(評価指標)は0.122でピークに達しますが、その後、合成データの多様性の限界により低下します。これは、合成データだけでは不十分であることを示しています。
  2. 実世界でのファインチューニングのみを使用すると、過学習が発生し、構造の一貫性が損なわれる傾向があります。これにより、オブジェクトの変形、体のずれ、非現実的な強調効果が生じます。
  3. 二段階の段階的混合戦略は、修復能力とコンテンツの一貫性を効果的にバランスさせます。このコンポーネントを削除すると、FSが0.004ポイント低下します(アブレーションによって確認されました)。
  4. ユーザー調査では、32人の参加者が3,200のグループを評価し、Nano Banana Proは32.02%の割合で最上位にランクインし、RealRestorerは21.54%でした。提案されたFS指標は、人間の判断と統計的に中程度の相関関係を示します(p < 0.01)。

二段階の段階的混合戦略は、修復能力とコンテンツの一貫性をバランスさせるための鍵であり、より視覚的に安定し、一貫性のある修復結果をもたらします。

結論

本稿では、複雑な現実世界の画像修復のための堅牢なオープンソース画像編集モデルである RealRestorer を紹介します。 合成データと現実データのギャップを縮小するために、合成データと、ノイズ除去された現実データのペアを組み合わせた、段階的な混合学習戦略と、包括的なデータ生成パイプラインを提案します。

さらに、本物の劣化画像を用いた、現実世界の画像修復のための VLM (Vision-Language Model) ベースの評価フレームワークを備えた、非参照ベンチマークである RealIR-Bench を発表します。 広範な実験により、RealRestorer が 9 つの画像修復タスクにおいて、オープンソースの最先端の性能を達成し、主要なクローズドソースの商用システムと比較して、結果が非常に類似していることが示されました。また、未知の劣化に対しても優れた汎化能力を示しています。

本稿で紹介したモデル、データ生成パイプライン、およびベンチマークは、現実世界の画像修復に関する今後の研究を支援するために公開します。

制限事項

28段階ノイズ除去はなぜ高コストか?

拡散モデルはランダムノイズから段階的にノイズを除去して画像を生成します。各ステップでDiTバックボーン(FLUXスケールで約40億パラメータ)を1回通過させます。28ステップ×1回フォワードパス=シングルステップモデルの約28倍のコスト。小さな専門的修復器(NAFNetやRestormerなど)は1回のパスで直接回帰を解きます。トレードオフ:拡散モデルはよりリアルなテクスチャを生成し汎化性が高いですが、シングルステップネットワークより10〜50倍遅くなります。

ベースモデルは 28 段階のノイズ除去プロセスを使用しており、より小さな専門的なネットワークと比較して、計算コストが高くなる可能性があります。 また、強い意味的な曖昧さがある場合 (例: 鏡に映った自撮り)、モデルはシーンの本来の内容と、意図しない反射を区別できない場合があります。 さらに、モデルは、信頼できる画素情報がほとんど存在しない、極端な劣化に対しては、うまく機能しない場合があります。

B2B Content

あらゆるコンテンツを、御社向けに美麗に制作します

PDF・動画・Webページ等のあらゆる素材から、プロダクション品質のコンテンツを制作します。リッチHTML・カスタムスライド・アニメーション動画。

サービス詳細を見る お問い合わせ