---
arxiv_id: 2604.04746
title: "「ストロークで考える、ピクセルで考えるな」— Flecto"
authors:
  - Lei Zhang
  - Junjiao Tian
  - Zhipeng Fan
  - Kunpeng Li
  - Jialiang Wang
  - Weifeng Chen
  - Markos Georgopoulos
  - Felix Juefei-Xu
  - Yuxiang Bao
  - Julian McAuley
  - Manling Li
  - Zecheng He
difficulty: Advanced
tags:
  - Vision
  - Multimodal
  - Reasoning
  - Diffusion
published_at: 2026-04-08
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.04746/
lang: ja
---

> プロセス駆動による画像生成：インターリーブされた推論によるアプローチ

**著者**: Lei Zhang、Junjiao Tian、Zhipeng Fan、Kunpeng Li、Jialiang Wang、Weifeng Chen、Markos Georgopoulos、Felix Juefei-Xu、Yuxiang Bao、Julian McAuley、Manling Li、Zecheng He

## Abstract

人間は画像を段階的に描画します。全体的なレイアウトを計画し、粗い下書きを作成し、検査を行い、詳細を調整します。そして、最も重要なことは、各ステップが進化する視覚的な状態に基づいていることです。本稿では、 プロセス駆動型画像生成 という、合成を思考と行動の交互に繰り返す推論経路に分解する、多段階のパラダイムを紹介します。我々のアプローチは、単一のステップで画像を生成するのではなく、複数の反復を経て行われ、各反復は4つの段階で構成されます： テキストによる計画、視覚的な下書き、テキストによる反省、および視覚的な調整 。テキストによる推論は、視覚的な状態がどのように進化すべきかを明示的に制御し、生成された視覚的な中間結果は、次に行われるテキストによる推論を制約し、根拠を与えます。プロセス駆動型生成の中核的な課題は、中間状態の曖昧さです。モデルは、部分的に完成された画像をどのように評価できるのでしょうか？我々は、密で段階的な教師あり学習によってこの課題に対処します。このアプローチでは、2つの補完的な制約を維持します。視覚的な中間状態については、空間的および意味的な一貫性を強制し、テキスト的な中間状態については、既存の視覚的な知識を維持しながら、モデルがプロンプトに違反する要素を特定し、修正できるようにします。これにより、生成プロセスが明示的になり、解釈しやすくなり、直接的に監視できるようになります。我々の手法を検証するために、さまざまなテキストから画像への生成ベンチマークを用いた実験を実施しました。

### 主な貢献

### プロセス駆動型パラダイム — 画像生成のための計画 → 下書き → 検査 → 改善のサイクル。

### 高密度段階的教師あり学習 — 視覚状態に対する空間的/意味的な整合性 + テキスト状態に対する事前知識。

### 統合モデルのトレーニング — BAGEL-7B は、テキストと画像のトークンを交互に生成するために、エンドツーエンドでトレーニングされました。

### GenEval : 0.79 → 0.83 (+5% 絶対値での増加)

### WISE : 0.70 → 0.76 (+6% 絶対値増加)

## Introduction

### はじめに

### 単一回の生成における問題点

画像生成における目覚ましい進歩にもかかわらず、現在のモデルは依然として基本的な視覚的論理において脆弱であり、妥当性はあるものの誤った画像を生成する可能性があります。例えば、「スプーンの上に浮いているクマ」というプロンプトに対して、モデルが正しくない結果として「クマがスプーンのそばに立っている」という画像を生成してしまうことがあります。このようなワンショットのブラックボックス生成は、モデルに単一のフォワードパスの中で、正確な空間配置、オブジェクト間の関係、そして細部の属性をすべて同時に解決することを強いることになります。

### 私たちのアプローチ：プロセス駆動型生成

私たちは、 ビジョンとテキストの両方に根ざした、交互推論によるプロセス駆動型画像生成 によって、この成果志向のパラダイムに挑戦します。我々は、画像生成を、テキストプランと視覚状態が共進化する軌道として再定義し、それを、繰り返される4段階のプロセスによって調整します。 Plan → Sketch → Inspect → Refine 。このモデルは、最終的な画像を思い描くのではなく、画像を描画する際に、一筆一筆、決定ごとに構築していきます。

### 図1： シングルパス生成（左）とプロセス駆動型生成（右）の比較。反復的な「計画→下書き→検査→改良」サイクルにより、モデルは生成中に発生する空間的なずれや指示の矛盾を検出し、修正することができます。

## Experiments

### 4.2 定量評価

我々は、以下の2つのベンチマークを用いて、我々の手法を評価しました： GenEval （構成的なテキストから画像への評価）と WISE （テキストから画像生成における世界知識の推論）。我々のプロセス駆動型アプローチは、統合されたマルチモーダルモデルの中で最先端の結果を達成しました。

WISEベンチマークは、テキストから画像を生成する際の、世界知識に基づく推論能力を評価します。生成のみを行うモデルは、限られたマルチモーダル理解のために、中程度の性能（0.32～0.50）しか達成できません。一方、本研究のプロセス駆動型アプローチは、交互推論を活用することで、大幅に高いスコアを達成します。

### 表1: GenEvalベンチマークの結果。本手法とベースラインモデルとの比較。本手法は0.83という結果を達成し、これはBAGEL-7Bのベースライン（0.79）と比較して5%向上しています。

### 表2: WISEベンチマークの結果。本手法は、0.76という結果を達成し、これはBAGEL-7Bのベースライン（0.70）と比較して6%の向上です。

### 4.3 プロセス駆動型推論の分析

私たちの提案手法の効果を評価するために、2つの異なる種類のベースラインと比較しました。(1) inspect-and-refine機構を持たないモデル、および(2)テキストによるchain-of-thoughtのみを持つモデルです。結果から、視覚的なフィードバックループが不可欠であることが示されました。Inspectがない場合、モデルは空間的なずれを検知できません。また、Refineがない場合、検知されたエラーを修正できません。テキストと視覚情報を組み合わせた、相互に進化するアプローチこそが、パフォーマンスの向上を促進する要因です。

### 4.4 アブレーションスタディ

アブレーション実験の結果、プロセス駆動型パイプラインの各コンポーネントが、最終的な性能に重要な貢献をしていることが確認されました。シーングラフのサブサンプリングを削除すると、矛盾した指示が生じます。自己サンプリングされた評価データ（critique data）を削除すると、モデルがエラーを検出し、修正する能力が低下します。また、リファインメントの反復回数を減らすと、GenEvalとWISEのスコアの両方が低下します。

### 4.5 定性的評価

図4は、私たちが開発したプロセス駆動型の生成パラダイムによって生成される推論経路を示しています。このモデルは、命令と中間状態の矛盾（現在の視覚情報が全体の指示と矛盾する場合）や、画像と命令の整合性の問題（シーンが指定されたレイアウトと異なる場合）を検出する能力を示しています。いずれの場合も、検査（Inspect）フェーズは問題を正しく特定し、改善（Refine）フェーズが適切な修正を行います。

### 図4: 対立解消機能を備えたプロセス駆動型生成の定性的な例。上：標準的な生成。中央：指示に基づく中間層での対立検出と修正。下：画像と指示の整合性修正。

## Conclusion

テキスト計画、視覚的スケッチ、自己検証、そして改善という相互進化のループを通じて、統合マルチモーダルモデルが画像を一筆一筆、決定ごとに構築する、新しいプロセス駆動型インターリーブ推論パラダイムを提案します。本手法は3つの革新的要素に基づいています。 シーングラフサブサンプリング による矛盾のない段階的指示の生成、 自己サンプリングされた批判的トレース によるモデル自身の誤りからの学習、そして BAGEL-7Bのエンドツーエンド学習 によるテキストと画像トークンの自己回帰的な交互生成。

私たちは、公開されているBAGEL-7BモデルのGenEvalにおける性能を0.79から 0.83 （+5%の絶対的な向上）に、そしてWISEにおける性能を0.70から 0.76 （+6%の絶対的な向上）に向上させました。

今後の展望として、私たちは統合的なマルチモーダル推論を動画や3D空間に拡張し、リアルタイムでの人間とのインタラクティブな制御を可能にすることを目指します。これにより、制御可能で、真実に基づき、解釈可能な画像生成を実現します。

## Head

### 「ストロークで考える、ピクセルで考えるな」— Flecto

## Pipeline

### 生成ループ

### このモデルは、画像を一つ一つの線、あるいは一つ一つの判断に基づいて構築します。

### <ins> 命令（何を追加・修正するか）と <des> 説明（シーン全体の状態）を生成する

### スケッチ

### 指示に基づいて、現在の視覚状態を条件として、中間的な視覚表現を生成します。

### 生成された画像とプロンプトとの間に矛盾がないかを確認します。具体的には、空間的なずれ、オブジェクトの欠落、属性の誤りなどを検出します。

### 検出された問題点を修正し、視覚的な状態を再生成するために <refine> コマンドを発行する

## Method

### 3.1 フレームワーク

現在存在するほとんどの画像生成モデルは、単一の順伝播パスで画像を生成します。場合によっては、テキストプロンプトにのみ適用される連鎖思考（chain-of-thought）推論が追加されることもあります。しかし、複雑な空間関係や細部にわたる視覚的な情報は、この一度の処理（one-shot）パラダイムを通して表現することが本質的に困難です。なぜなら、モデルは視覚的なフィードバックが利用可能になる前に、シーン全体を解釈する必要があるからです。

私たちのモデルの基本的な枠組みは、画像生成を、逐次的に交互に行われるテキストとビジュアルの推論プロセスとして機能します。統合されたマルチモーダルモデルと入力テキストプロンプトに基づいて、モデルは交互にテキストと画像のトークンからなる一連のシーケンスを生成します。各反復は、以下のステップで構成されます。(1) Plan ：段階的な更新を指定するテキスト指示を生成します。(2) Sketch ：新しいビジュアル中間表現を合成します。(3) Inspect ：現在のビジュアル状態を全体的なプロンプトと照合して検証します。(4) Refine ：必要に応じて修正を行います。

図2： 統合型マルチモーダル推論モデルの概要。このモデルは、Plan→Sketch→Inspect→Refineのループを通じて、テキストとビジュアルのトークンを交互に処理し、指示トークン ( <ins> ) とシーン記述トークン ( <des> ) の両方に作用します。

### 3.2 中間推論データの収集

プロセス駆動型生成モデルを訓練するために、中間的な推論経路の大規模なデータセットを構築します。データ収集パイプラインは、以下の2つのコンポーネントで構成されます。(1) 中間的な視覚状態データ — シーングラフから派生した、ステップごとの指示。Flux-Knotextを使用して生成された中間画像であり、LLMによってフィルタリングされています。(2) 中間的なテキストによる批判データ — モデル自身が生成した批判のトレースであり、正しい/間違ったサンプルペアを通じて、モデルは自身の誤りから学習します。

図3： 学習データ構築パイプライン。左：SubGraphとStructureコンポーネントからのグラフベースのプロンプト構築。右：Flux-Knotextを使用した中間的な視覚状態データの生成、およびモデル学習のための評価データ生成。

### 3.3 モデル (BAGEL-7B)

本モデルは、テキストトークンを自己回帰的に生成するよう学習され、テキストトークン位置にのみ適用されるクロスエントロピー損失で最適化されます。インターリーブシーケンスをネイティブに生成するために、 <vision_start> と <vision_end> トークンに損失項を追加し、テキスト・ビジュアルトークン間のシームレスな切り替えを実現します。このモデル — BAGEL-7B — は、完全なインターリーブ生成ループを処理するためにエンドツーエンドで学習されます。

## Gallery

### Generation Gallery

### プロセスに基づいた生成により、写真のようにリアルなポートレートから、複雑な複数のオブジェクトを含むシーンまで、幅広い主題とスタイルで、多様で高品質な画像が生成されます。

### 図5： プロセス駆動型の画像生成における多様性と品質を示す、28種類の異なるテーマとスタイルに基づいた画像生成のサンプルギャラリー。

## Citation

### この資料の引用

## Related

### 関連研究

### 2.1 統合されたマルチモーダルモデル

統合されたマルチモーダルモデルは、視覚的な理解と生成を単一のフレームワークで統合することを目指しています。初期の自己回帰アプローチ（Chameleon, Emu3, Show-o）は、VQ-VAEのような離散的な視覚トークン化手法に依存し、画像を離散的なトークンシーケンスとしてモデル化します。より最近のアプローチ（BAGEL, Janus）は、連続的なトークン生成手法を採用し、理解と生成の両方のタスクにおいて、より優れた性能を発揮します。

### 2.2 画像生成における推論

最近の研究では、画像生成における段階的な推論（interleaved reasoning）が探求されており、テキストドメインにおける連鎖思考（chain-of-thought）が、マルチモーダルな環境へと拡張されています。初期の研究では、検証に基づく手法やプロンプトの改良戦略が採用されています。しかし、私たちの研究は根本的に異なります。テキストプロンプトにのみ推論を適用するのではなく、視覚的なフィードバックを推論プロセスに組み込むことで、生成プロセスを真にマルチモーダルなものにしています。

## Meta

### 「ストロークで考え、ピクセルで表現する：インターリーブされた推論によるプロセス駆動型画像生成」

Plan→Sketch→Inspect→Refineのサイクルを用いた、新しいプロセス駆動型の画像生成パラダイム。BAGEL-7Bという統合型マルチモーダルモデルを使用することで、GenEvalで0.83（+5%）、WISEで0.76（+6%）を達成。

Plan→Sketch→Inspect→Refineのサイクルを用いた、新しいプロセス駆動型画像生成パラダイム。BAGEL-7Bという統合型マルチモーダルモデルを使用し、GenEvalで0.83（+5%）、WISEで0.76（+6%）を達成。

### https://flecto.zer0ai.dev/ja/papers/2604.04746/

### ja_JP

### https://flecto.zer0ai.dev/ja/papers/2604.04746/