プロセス駆動による画像生成:インターリーブされた推論によるアプローチ
Meta Superintelligence Labs · UC San Diego · WPI · Northwestern University
このモデルは、画像を一つ一つの線、あるいは一つ一つの判断に基づいて構築します。
<ins> 命令(何を追加・修正するか)と <des> 説明(シーン全体の状態)を生成する
指示に基づいて、現在の視覚状態を条件として、中間的な視覚表現を生成します。
生成された画像とプロンプトとの間に矛盾がないかを確認します。具体的には、空間的なずれ、オブジェクトの欠落、属性の誤りなどを検出します。
検出された問題点を修正し、視覚的な状態を再生成するために <refine> コマンドを発行する
人間は画像を段階的に描画します。全体的なレイアウトを計画し、粗い下書きを作成し、検査を行い、詳細を調整します。そして、最も重要なことは、各ステップが進化する視覚的な状態に基づいていることです。本稿では、プロセス駆動型画像生成という、合成を思考と行動の交互に繰り返す推論経路に分解する、多段階のパラダイムを紹介します。我々のアプローチは、単一のステップで画像を生成するのではなく、複数の反復を経て行われ、各反復は4つの段階で構成されます:テキストによる計画、視覚的な下書き、テキストによる反省、および視覚的な調整。テキストによる推論は、視覚的な状態がどのように進化すべきかを明示的に制御し、生成された視覚的な中間結果は、次に行われるテキストによる推論を制約し、根拠を与えます。プロセス駆動型生成の中核的な課題は、中間状態の曖昧さです。モデルは、部分的に完成された画像をどのように評価できるのでしょうか?我々は、密で段階的な教師あり学習によってこの課題に対処します。このアプローチでは、2つの補完的な制約を維持します。視覚的な中間状態については、空間的および意味的な一貫性を強制し、テキスト的な中間状態については、既存の視覚的な知識を維持しながら、モデルがプロンプトに違反する要素を特定し、修正できるようにします。これにより、生成プロセスが明示的になり、解釈しやすくなり、直接的に監視できるようになります。我々の手法を検証するために、さまざまなテキストから画像への生成ベンチマークを用いた実験を実施しました。
通常の画像生成では、モデルはテキストプロンプトを受け取り、最終的な画像を1回のステップで出力します。これは、下書きや修正を行わずにエッセイを書くようなものです。インターリーブされた推論とは、テキストによる思考と画像出力を行き来することです。モデルはテキストで計画を立て、部分的な画像を生成し、それを確認し、再び思考し、修正を加えていきます。これは、人間の芸術家がスケッチを描き、後ずさりして、修正を加えることと似ていますが、ここでは計画と描画の両方が同じAIモデルによって行われます。
画像生成における目覚ましい進歩にもかかわらず、現在のモデルは依然として基本的な視覚的論理において脆弱であり、妥当性はあるものの誤った画像を生成する可能性があります。例えば、「スプーンの上に浮いているクマ」というプロンプトに対して、モデルが正しくない結果として「クマがスプーンのそばに立っている」という画像を生成してしまうことがあります。このようなワンショットのブラックボックス生成は、モデルに単一のフォワードパスの中で、正確な空間配置、オブジェクト間の関係、そして細部の属性をすべて同時に解決することを強いることになります。
私たちは、ビジョンとテキストの両方に根ざした、交互推論によるプロセス駆動型画像生成によって、この成果志向のパラダイムに挑戦します。我々は、画像生成を、テキストプランと視覚状態が共進化する軌道として再定義し、それを、繰り返される4段階のプロセスによって調整します。Plan → Sketch → Inspect → Refine。このモデルは、最終的な画像を思い描くのではなく、画像を描画する際に、一筆一筆、決定ごとに構築していきます。
現在存在するほとんどの画像生成モデルは、単一の順伝播パスで画像を生成します。場合によっては、テキストプロンプトにのみ適用される連鎖思考(chain-of-thought)推論が追加されることもあります。しかし、複雑な空間関係や細部にわたる視覚的な情報は、この一度の処理(one-shot)パラダイムを通して表現することが本質的に困難です。なぜなら、モデルは視覚的なフィードバックが利用可能になる前に、シーン全体を解釈する必要があるからです。
テキストによる連想推論(Chain-of-Thought, CoT)では、モデルに生成する前に「段階的に考える」ように指示します。しかし、この思考は視覚的に盲目です。モデルはテキストでシーンを計画できますが、画像が生成されるまで、その空間的な指示が実際に実行されたかどうかを確認できません。もし「猫をベンチの左に配置する」という指示が誤解された場合、テキストCoTは、出力を見ない限り、それを検知したり修正したりする方法がありません。プロセス駆動の生成は、各段階で視覚的なフィードバックを取り込むことで、この問題を解決します。
私たちのモデルの基本的な枠組みは、画像生成を、逐次的に交互に行われるテキストとビジュアルの推論プロセスとして機能します。統合されたマルチモーダルモデルと入力テキストプロンプトに基づいて、モデルは交互にテキストと画像のトークンからなる一連のシーケンスを生成します。各反復は、以下のステップで構成されます。(1) Plan:段階的な更新を指定するテキスト指示を生成します。(2) Sketch:新しいビジュアル中間表現を合成します。(3) Inspect:現在のビジュアル状態を全体的なプロンプトと照合して検証します。(4) Refine:必要に応じて修正を行います。
<ins>) とシーン記述トークン (<des>) の両方に作用します。プロセス駆動型生成モデルを訓練するために、中間的な推論経路の大規模なデータセットを構築します。データ収集パイプラインは、以下の2つのコンポーネントで構成されます。(1) 中間的な視覚状態データ — シーングラフから派生した、ステップごとの指示。Flux-Knotextを使用して生成された中間画像であり、LLMによってフィルタリングされています。(2) 中間的なテキストによる批判データ — モデル自身が生成した批判のトレースであり、正しい/間違ったサンプルペアを通じて、モデルは自身の誤りから学習します。
本モデルは、テキストトークンを自己回帰的に生成するよう学習され、テキストトークン位置にのみ適用されるクロスエントロピー損失で最適化されます。インターリーブシーケンスをネイティブに生成するために、<vision_start> と <vision_end> トークンに損失項を追加し、テキスト・ビジュアルトークン間のシームレスな切り替えを実現します。このモデル — BAGEL-7B — は、完全なインターリーブ生成ループを処理するためにエンドツーエンドで学習されます。
従来のAIシステムは、理解と生成を分離しています。あるモデルが画像を読むのに対し、別のモデルがそれらを作成します。BAGEL-7Bのような統合型マルチモーダルモデルは、単一のネットワーク内で両方の機能を実行します。つまり、画像トークンを読み取り、画像トークンを生成し、テキストトークンを処理することも、すべて同じ自己回帰フレームワークで行えます。この統合性こそが、Plan→Sketch→Inspect→Refineのループを可能にするものです。モデルは、画像を理解できるため、自身の視覚的な出力(Inspect)を検査できます。そして、画像を生成できるため、修正された画像(Refine)を生成できます。
我々は、以下の2つのベンチマークを用いて、我々の手法を評価しました:GenEval(構成的なテキストから画像への評価)とWISE(テキストから画像生成における世界知識の推論)。我々のプロセス駆動型アプローチは、統合されたマルチモーダルモデルの中で最先端の結果を達成しました。
GenEval は、構成要素に基づいたテキストから画像への生成をテストします。モデルが「赤いボールを青い立方体の左側に配置する」という指示を正しく実行できるかどうかを評価します。プロンプト内のオブジェクト、属性、および空間的な関係が忠実に再現されているかどうかを確認します。WISE (World Knowledge Reasoning in Synthesis Evaluation) は、モデルが現実世界の知識を用いて正確な画像を生成できるかどうかをテストします。例えば、「袋の中に子ガゼルがいるカンガルー」を生成するには、カンガルーが有袋類であることを知っている必要があります。これらのベンチマークは互いに補完し合い、GenEvalは空間的な論理をテストし、WISEは事実に基づいた知識をテストします。
WISEベンチマークは、テキストから画像を生成する際の、世界知識に基づく推論能力を評価します。生成のみを行うモデルは、限られたマルチモーダル理解のために、中程度の性能(0.32~0.50)しか達成できません。一方、本研究のプロセス駆動型アプローチは、交互推論を活用することで、大幅に高いスコアを達成します。
私たちの提案手法の効果を評価するために、2つの異なる種類のベースラインと比較しました。(1) inspect-and-refine機構を持たないモデル、および(2)テキストによるchain-of-thoughtのみを持つモデルです。結果から、視覚的なフィードバックループが不可欠であることが示されました。Inspectがない場合、モデルは空間的なずれを検知できません。また、Refineがない場合、検知されたエラーを修正できません。テキストと視覚情報を組み合わせた、相互に進化するアプローチこそが、パフォーマンスの向上を促進する要因です。
アブレーション実験の結果、プロセス駆動型パイプラインの各コンポーネントが、最終的な性能に重要な貢献をしていることが確認されました。シーングラフのサブサンプリングを削除すると、矛盾した指示が生じます。自己サンプリングされた評価データ(critique data)を削除すると、モデルがエラーを検出し、修正する能力が低下します。また、リファインメントの反復回数を減らすと、GenEvalとWISEのスコアの両方が低下します。
図4は、私たちが開発したプロセス駆動型の生成パラダイムによって生成される推論経路を示しています。このモデルは、命令と中間状態の矛盾(現在の視覚情報が全体の指示と矛盾する場合)や、画像と命令の整合性の問題(シーンが指定されたレイアウトと異なる場合)を検出する能力を示しています。いずれの場合も、検査(Inspect)フェーズは問題を正しく特定し、改善(Refine)フェーズが適切な修正を行います。
プロセスに基づいた生成により、写真のようにリアルなポートレートから、複雑な複数のオブジェクトを含むシーンまで、幅広い主題とスタイルで、多様で高品質な画像が生成されます。
テキスト計画、視覚的スケッチ、自己検証、そして改善という相互進化のループを通じて、統合マルチモーダルモデルが画像を一筆一筆、決定ごとに構築する、新しいプロセス駆動型インターリーブ推論パラダイムを提案します。本手法は3つの革新的要素に基づいています。シーングラフサブサンプリングによる矛盾のない段階的指示の生成、自己サンプリングされた批判的トレースによるモデル自身の誤りからの学習、そしてBAGEL-7Bのエンドツーエンド学習によるテキストと画像トークンの自己回帰的な交互生成。
私たちは、公開されているBAGEL-7BモデルのGenEvalにおける性能を0.79から0.83(+5%の絶対的な向上)に、そしてWISEにおける性能を0.70から0.76(+6%の絶対的な向上)に向上させました。
今後の展望として、私たちは統合的なマルチモーダル推論を動画や3D空間に拡張し、リアルタイムでの人間とのインタラクティブな制御を可能にすることを目指します。これにより、制御可能で、真実に基づき、解釈可能な画像生成を実現します。
@article{zhang2026think,
title={Think in Strokes, Not Pixels: Process-Driven Image Generation
via Interleaved Reasoning},
author={Zhang, Lei and Tian, Junjiao and Fan, Zhipeng and Li, Kunpeng
and Wang, Jialiang and Chen, Weifeng and Georgopoulos, Markos
and Juefei-Xu, Felix and Bao, Yuxiang and McAuley, Julian
and Li, Manling and He, Zecheng},
journal={arXiv preprint arXiv:2604.04746},
year={2026}
}