---
arxiv_id: 2604.06870
title: "RefineAnything: 完璧なローカル詳細のためのマルチモーダル領域特定リファインメント | Flecto"
authors:
  - Dewei Zhou
  - You Li
  - Zongxin Yang
  - Yi Yang
difficulty: Intermediate
tags:
  - Vision
  - Diffusion
  - Multimodal
  - Image Editing
published_at: 2026-04-08
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.06870/
lang: ja
---

> RefineAnything: 完璧なローカル詳細のためのマルチモーダル領域特定リファインメント

**著者**: Dewei Zhou*, You Li*, Zongxin Yang, Yi Yang · 浙江大学 · ハーバード大学

## Abstract

現代の画像生成モデルは、 ローカル詳細の崩壊 という根本的な問題を抱えています。固定解像度でエンコードする際、小さな領域はわずかな潜在トークンしか持てず、デコード時に細部を復元できません。その結果、AI生成画像に判読不能なテキスト・ぼやけた顔・不正確なロゴが生じます。

RefineAnythingは 領域特定画像リファインメント を専用の問題設定として定式化します。入力画像とユーザー指定の領域（スクリブルマスクまたはバウンディングボックス）を受け取り、指定領域の細粒度な詳細を復元しつつ、それ以外のピクセルを完全に保持します。凍結されたQwen2.5-VLマルチモーダルエンコーダ、新しいFocus-and-Refineのクロップ・アップサンプル・デノイズ戦略、シームレスな統合のためのBoundary Consistency Lossを使用します。学習にはRefine-30K（30Kサンプル：参照ベース20K・参照なし10K）、評価にはこのタスク初のベンチマークRefineEvalを使います。

## Conclusion

RefineAnythingは 領域特定画像リファインメント を専用の研究問題として定義し、それに対する初の実用的なシステムを提供します。Focus-and-Refineはローカル詳細崩壊を引き起こすVAE解像度ボトルネックを解決します。Boundary Consistency Lossは精製された領域のシームレスな統合を実現します。Refine-30KとRefineEvalは研究コミュニティに必要なトレーニングと評価のインフラを提供します。

RefineEvalの結果は、参照ベースと参照なしの両設定において、テキスト・ロゴ・顔の詳細回復にわたってすべてのベースラインを一貫して上回ります。フロンティアの画像生成モデル（GPT-Image・Gemini）が全体的な品質を向上させる中、領域特定リファインメントはローカル詳細のギャップを埋め、真に制作使用可能なAI生成画像を実現します。

## Meta

### RefineAnything: 完璧なローカル詳細のためのマルチモーダル領域特定リファインメント | Flecto

### RefineAnything: 完璧なローカル詳細のためのマルチモーダル領域特定リファインメント | Flecto

### RefineAnythingはAI生成画像の歪んだテキスト・ロゴ・顔を修正します。バウンディングボックスと参照画像またはプロンプトで、周囲のピクセルを一切変えずに細粒度の詳細を復元します。

### RefineAnythingはAI生成画像の歪んだテキスト・ロゴ・顔を修正します。バウンディングボックスと参照画像またはプロンプトで、周囲のピクセルを一切変えずに細粒度の詳細を復元します。

### https://flecto.zer0ai.dev/ja/papers/2604.06870/

### ja_JP

### https://flecto.zer0ai.dev/ja/papers/2604.06870/

## Hero Metric Value

### 30K

### SOTA

## Hero Metric Label

### データセットサンプル数

### リファインメントモード

### RefineEval スコア

## Hero Teaser

AIが画像を生成するとき、テキスト・ロゴ・顔といったローカルな詳細が歪んだりぼやけたりすることがよくあります。RefineAnythingは、そうした領域をサージカルな精度で修正します。スクリブルマスクまたはバウンディングボックスを指定するだけで、周囲のピクセルを一切変えずに細粒度の詳細を復元します。

## Hero Button

### arXivで読む ↗

## Abstract Heading

### アブストラクト

## Abstract Innovation Card

### 新機能 // REFINEANYTHING

## Abstract Innovation Card Li

### 領域特定リファインメントを専用の問題設定として定義

### Focus-and-Refine：クロップ → アップサンプル → デノイズ → ペーストバック

### シームレスな統合のためのBoundary Consistency Loss

### Refine-30K：30Kトレーニングサンプル（参照ベース + 参照なし）

### RefineEval：領域特定リファインメント初のベンチマーク

## Abstract Figure Caption

図1： RefineAnythingは、GPT-ImageやGeminiが生成した画像内のテキスト・ロゴ・顔などのローカル詳細を復元します。ユーザーが劣化した領域にバウンディングボックスを指定すると、参照画像またはテキストプロンプトを使って領域を精製しつつ、ボックス外のピクセルは完全に保持されます。

## Introduction Heading

### 1. はじめに

## Introduction Problem

画像生成は劇的に進歩しましたが、根本的なボトルネックが残っています。それが VAE情報損失 です。拡散モデルが画像をエンコードする際、小さな領域はわずかな潜在トークンしか占有できず、エンコーダはそれらを激しく圧縮します。その結果、読めるテキスト・識別可能なロゴ・くっきりとした顔の特徴という細部情報をデコード時に回復できません。

InstructPix2PixやSDEditなどの既存編集モデルは画像領域を変更できますが、周囲のコンテキストを保持しません——編集が周辺ピクセルに漏れ出してしまいます。FLUX Kontextはコンテキスト保持を改善していますが、外科的なローカル詳細回復には設計されていません。RefineAnythingは、この正確な問題に特化した初のシステムです。

## Introduction Contribution 1 Title

### 新しい問題設定

## Introduction Contribution 1 Text

### 領域特定画像リファインメントの形式的定義：画像＋ユーザー指定領域が与えられたとき、他のすべてのピクセルを完全に保持しながら詳細を復元する。

## Introduction Contribution 2 Title

### RefineAnythingシステム

## Introduction Contribution 2 Text

Focus-and-RefineでVAE解像度ボトルネックを解決し、Boundary Consistency Lossでシームレスなペーストバックを実現し、マルチモーダルVLMコンディショニングでリファインメントを誘導します。

## Introduction Contribution 3 Title

### Refine-30K + RefineEval

## Introduction Contribution 3 Text

### 参照ベースと参照なしの両モードをカバーする30Kトレーニングサンプル、そして領域特定リファインメントを評価するための初の専用ベンチマーク。

## Related Work Heading

### 2. 関連研究

## Related Work

既存の画像編集モデルは、テキスト指示や参照画像に基づいて画像を変更するという問題を扱います。InstructPix2Pix・SDEdit・FLUX Kontextはすべて、全画像を対象とするか、空間制御が粗い形で動作します。領域特定リファインメントが要求する厳密なピクセル保持制約——指定された領域外のピクセルが一切変化しないという制約——が欠けています。

拡散インペインティングモデル（Stable Diffusion Inpaint・BrushNetなど）はマスクされた領域を埋めることができますが、境界のシームレス性を保証しておらず、細粒度な詳細回復を学習目標としていません。RefineAnythingは、領域特定詳細リファインメントの問題を専用のトレーニングデータと評価プロトコルとともに初めて明示的に定式化・解決するシステムです。

## Method Heading

### 3. 手法

## Method Overview

RefineAnythingはQwen2.5-VLでコンディショニングされた拡散バックボーン上に構築されています。入力として：(1) 劣化した領域を含む入力画像、(2) 領域がどう見えるべきかを示すオプションの参照画像、(3) 領域キュー（スクリブルマスクまたはバウンディングボックス）、(4) テキスト指示を受け取ります。出力は、指定された領域のみが精製された入力と同一の画像です。

## Method Figure Caption

図2： RefineAnythingのアーキテクチャ。凍結されたQwen2.5-VLエンコーダが入力画像・参照画像・領域キュー・指示をマルチモーダルコンディショニングトークンに変換します。Focus-and-Refine戦略が対象領域をクロップしてアップサンプリングし、高解像度の拡散デノイズ後にBoundary Consistency Lossを適用してペーストバックします。

図3： Focus-and-Refineメカニズム。対象領域をクロップしてVAEエンコーディング前にフル解像度にアップサンプリングすることで、エンコーダが小さな領域を高解像度で見られるようになり、標準解像度での詳細崩壊を引き起こす情報損失を回避します。

図4： Refine-30Kデータセット構築パイプライン。参照ベースと参照なしの両スプリットが、高品質なソース画像に自動劣化を適用し、元画像をグラウンドトゥルースとしてペアリングします。カテゴリはテキストレンダリング・製品ロゴ・人物の顔・細粒度テクスチャを含みます。

## Method Pipeline Heading

### 3ステップパイプライン

## Method Step 1 Title

### マルチモーダルエンコーディング

## Method Step 1 Text

Qwen2.5-VL（凍結）が完全な入力画像・オプションの参照画像・領域キュー・テキスト指示をマルチモーダルコンディショニングトークンにエンコードします。これらのトークンが拡散バックボーンに「領域がどう見えるべきか」というセマンティックな誘導を与えます。

## Method Step 2 Title

### Focus-and-Refine

## Method Step 2 Text

指定された領域をクロップし、フル解像度にアップサンプリングします。この高解像度空間で拡散デノイズを実行します。小さな対象領域をエンコーダにフル解像度で見せることで、VAE情報損失問題を解決し、細粒度の詳細回復を可能にします。

## Method Step 3 Title

### シームレスなペーストバック

## Method Step 3 Text

精製された領域を元の画像にペーストバックします。トレーニング中に適用されるBoundary Consistency Lossが、領域境界での目に見える不連続を抑制します。結果として、精製された領域が自然に統合され、シームや光輪アーティファクトが生じません。

## Method Dataset Heading

### Refine-30K データセット

## Method Dataset Overview

RefineAnythingをトレーニングするために、著者らはRefine-30Kを構築しました——領域特定画像リファインメント専用の初のトレーニングデータセットです。製品上のテキスト・ロゴ・顔・テクスチャをカバーする自動劣化＋グラウンドトゥルース復元パイプラインで構築されています。

## Method Dataset Card Text

### 2種類のリファインメントモードにわたる30,000のトレーニングサンプル：

## Method Dataset Split Reference

### 入力画像 + 対象オブジェクト・テキスト・顔の参照画像 → 参照に合わせて領域を復元する。

## Method Dataset Split Free

### 入力画像 + テキストプロンプトのみ → テキスト記述だけに基づいて領域を復元する。

## Experiments Heading

### 4–5. 実験

## Experiments Overview

RefineAnythingは、領域特定画像リファインメントの初の専用ベンチマーク RefineEval で評価されます。参照ベースと参照なしの両設定で、FLUX Kontext・SDEdit・InstructPix2Pixなどの最先端ベースラインと比較されます。

## Experiments Subheading

### 参照ベースのリファインメント

### 参照なしのリファインメント

### 実世界への応用結果

## Experiments Table Caption

表1： RefineEvalにおける定量的結果（参照ベース設定）。評価指標：CLIP-I（参照忠実度）・PSNR・SSIM（境界保持）・複合忠実度スコア。RefineAnythingはすべての指標で最高スコアを達成します。

### 表2： RefineEvalにおける定量的結果（参照なし設定）。評価指標は指示追従・領域品質・背景保持をカバーします。RefineAnythingはすべてのプロンプトベースベースラインを上回ります。

## Experiments Qualitative Text

定量的な改善に加え、以下の定性比較でRefineAnythingの優位性が明確です。ベースラインモデルは読めるテキストの復元・ロゴの精確な描画・顔の特徴の保持に失敗しています。RefineAnythingは、精細なローカル詳細を復元しながら周囲の画像にシームレスに統合します。

## Experiments Figure Caption

図5： 参照ベースのリファインメントにおける定性比較。各行：入力画像（劣化した領域あり）・参照画像・ベースラインモデルの出力・RefineAnythingの出力。RefineAnythingはテキスト・ロゴ・顔を高い忠実度で復元しながら、周囲の画像を完全に保持します。

図6： 参照なし（プロンプトのみ）のリファインメントにおける定性比較。参照画像なしで、RefineAnythingはテキスト指示を使って他のモデルが正しく描画できない領域詳細を復元します——歪んだ顔・不明瞭なテキスト・ぼやけたテクスチャ。

図7： GPT-ImageとGeminiが生成した画像にRefineAnythingを適用。元の生成モデルが正確に描画できなかったテキスト・ロゴ・顔などの細粒度なローカル詳細を正常に復元し、領域境界での目に見えるアーティファクトは生じません。

## Experiments Real World Text

実用的な有用性を示すため、RefineAnythingをフロンティアモデル（GPT-Image・Gemini）が生成した画像に適用します。これらの画像には、製品上の誤ったテキスト・ぼやけた顔・不明確なロゴなど、典型的なローカル詳細の問題が含まれています。RefineAnythingは、指定された領域内のこれらの問題を周囲の画像を変えずに修正します。

## Ablation Heading

### 5.6 アブレーション研究

## Ablation Overview

### アブレーション研究では、各設計選択を1つずつ取り除き、RefineEval上の性能低下を測定することで各コンポーネントの貢献を検証します。

## Ablation Card Badge

### Focus-and-Refine

### Boundary Consistency Loss

### VLMコンディショニング

## Ablation Card Title

### VAEボトルネックを解決

### シームレスな統合を実現

### セマンティックな誘導を提供

## Ablation Card Text

クロップ・アップサンプリングステップを除去するとぼやけた出力になります。フル解像度のビューがなければ、VAEエンコーダは小さな領域の細部を失います——RefineAnythingが解決しようとしたまさにその問題です。

### BCLを除去すると、領域境界に目に見えるシームが発生します——精製されたコンテンツが周囲の画像に溶け込めなくなります。BCLはペーストバックを知覚できないものにするために不可欠です。

Qwen2.5-VLコンディショニングトークンを除去すると、精製された領域に誤ったコンテンツが現れます。VLMは「領域がどう見えるべきか」をエンコードし、それがなければ拡散モデルにセマンティックなアンカーがありません。

## Ablation Table Caption

表3： アブレーション研究の定量的結果。各コンポーネント（Focus-and-Refine・Boundary Consistency Loss・VLMコンディショニング）を除去するといずれも性能が有意に低下し、3つの設計選択すべての妥当性が検証されます。

## Ablation Figure Caption

### 図8： 視覚的アブレーション結果。各行が1つのコンポーネントを除去したモデルとフルモデルを比較し、各コンポーネントの出力品質への貢献が明確に示されます。

図9： 追加の視覚的アブレーション結果。シームレスなペーストバックへのBoundary Consistency Lossの貢献（BCLなしで境界が見える）と、詳細の鮮明さへのFocus-and-Refineの貢献（クロップ・アップサンプリングなしでぼやけた出力）が際立ちます。

## Conclusion Heading

### 6. おわりに

## References Summary

### 参考文献（クリックして展開）

## Footer

### このページは Flecto が生成しました——AI論文の発見と解説。
