AIエージェント学術イラストレーション

PaperBanana: AI研究者向けの学術イラストレーションの自動化

Dawei Zhu、Rui Meng、Yale Song、Xiyu Wei、Sujian Li、Tomas Pfister、Jinsung Yoon

北京大学 · Google Cloud AI Research

PaperBananaは、学術論文で利用可能な高品質なイラストを自動生成するエージェントベースのフレームワークです。Retriever、Planner、Stylist、Visualizer、そしてCriticという5つの専門的なエージェントを連携させることで、科学的なコンテンツを高品質な方法論図や統計グラフに変換します。また、PaperBananaBenchというベンチマークが付属しており、4つの側面における厳密な評価のための292件のテストケースを提供します。

+2.8% 忠実さ

+37.2% 簡潔さ

+12.9% 読みやすさ

+6.6% 美学

Read on arXiv ↗

Examples of methodology diagrams and statistical plots generated by PaperBanana — **図1：** PaperBananaによって生成された、手法の図解と統計プロットの例。これは、本フレームワークが多様で、出版可能な学術的な図を作成できる能力を示しています。

はじめに

自律的な科学的発見は、人工汎用知能 (Artificial General Intelligence, AGI) の長年の課題です。大規模言語モデル (Large Language Models, LLMs) の急速な進化に伴い、自律型 AI 研究者 (Autonomous AI Scientists) は、研究ライフサイクルの多くの側面を自動化する可能性を示しており、文献調査やアイデア創出から、実験設計や論文作成まで、幅広い分野に貢献しています。

しかし、出版可能なイラストレーションの作成は、依然として多くの労力と時間を要するボトルネックとなっています。以前の、TikZやMatplotlibを使用したコードベースのアプローチでは、視覚的な美しさに欠け、現代の学術論文で期待される品質に達しない結果が生じることがありました。

PaperBananaは、高品質な学術的なイラストの制作を自動化することで、このギャップを埋めます。メソッドの説明と図の説明文を入力として受け取り、専門のシステムを連携させて、出版可能なビジュアル表現を生成します。

🤖

PaperBanana Framework

テキストによる説明から、学術論文に掲載可能な高品質なイラストを生成するために、5つの専門的なエージェント（Retriever, Planner, Stylist, Visualizer, Critic）を連携させる、完全に自動化されたエージェントフレームワーク。

📊

PaperBananaBench

NeurIPS 2025の論文から収集された292件のテストケースを用いた、包括的なベンチマークです。評価項目は、以下の4つの次元で構成されます: Faithfulness (忠実性)、Conciseness (簡潔性)、Readability (可読性)、および Aesthetics (美観)。

🏆

優れたパフォーマンス

すべての評価項目において、既存の主要な手法を常に上回り、+2.8%のFaithfulness（信頼性）、+37.2%のConciseness（簡潔性）、+12.9%のReadability（読みやすさ）、および+6.6%のAesthetics（美しさ）の向上を達成しています。

タスクの定式化

この論文では、自動的な学術的なイラスト生成を、あるソースのコンテキストとコミュニケーションの意図から、視覚的な表現へのマッピングを学習する問題として形式化しています。

ソースコンテキスト \(S\) には、重要な方法論に関する情報が含まれており、コミュニケーションの意図 \(C\)（通常は図の説明文）は、イラストが何を伝えるべきかを指定します。マッピング関数 \(F\) は、イラストを生成します。\(I = F(S, C; \mathcal{E})\)。この生成は、必要に応じて、参照例 \(\mathcal{E} = \{E_n\}_{n=1}^{N}\) によってガイドされます。ここで、各 \(E_n = (S_n, C_n, I_n)\) は、ソースコンテキスト、コミュニケーションの意図、および対応するイラストのセットです。

このマッピングは、実際には何を意味するのでしょうか？

これは、科学的なアイデアを翻訳するようなものです。ユーザーは以下のものを提供します:

ソースコンテキスト S — あなたのメソッドを詳細に説明するテキスト (例: "私たちのモデルは、Transformerエンコーダに続いてGRUデコーダを使用します...")
コミュニケーション意図 C — 図の説明文で、図が何を示すべきかを記述するもの (例: "提案するアーキテクチャの概要")
参照例 E — 視覚的なスタイルを参考にするための、類似の論文からの既存の図

システムは、その後、あなたのメソッドを視覚的に伝えるイラストレーション I を生成します。これは、グラフィックデザイナーがあなたの論文を読んで図を作成するプロセスと似ていますが、完全に自動化されています。

様々な種類の学術的なイラストレーションの中でも、本稿では方法論図に焦点を当てています。これらは、複雑な技術的概念や論理的な流れをテキスト記述から解釈し、高忠実度で視覚的に魅力的な図に変換することを必要とします。このフレームワークは、統計プロットにも適用されます。

方法論

Overview of PaperBanana framework — **図2:** PaperBananaフレームワークの概要。与えられたソースコンテキストとコミュニケーション意図に基づいて、システムは、線形計画フェーズ（Retriever → Planner → Stylist）を経て、反復的な改善ループ（Visualizer ↔ Critic、T=3ラウンド）を実行します。

PaperBananaは、5人の専門エージェントからなる共同チームを編成します。このフレームワークは、2つの段階で動作します。まず、線形計画段階があり、ここでRetriever、Planner、およびStylistエージェントが順番に入力データを処理します。次に、反復改善ループがあり、ここでVisualizerとCriticエージェントがT=3ラウンドで協力し、最終的なイラストを生成します。

なぜ5人のエージェントが必要なのか？ 各エージェントは、図面作成の異なる側面を専門とし、デザインチームに似ています。一人が参照資料を探し、別の人がレイアウトを計画し、デザイナーがスタイルを追加し、イラストレーターが描画し、レビュアーがフィードバックを提供します。この分業により、単一のモデルにすべてを同時に行うよりも、より優れた結果が得られます。

検索エージェント

VLM（Vision-Language Model）ベースのランキングを用いて、固定された参照例の集合から最も関連性の高いものを特定します。VLMは、研究分野（例：Agent & Reasoning）と図の種類（例：pipeline, architecture）の両方を照合して候補をランク付けするように指示されます。この際、トピックの類似性よりも視覚的な構造が優先されます。 これにより、構造的な論理と視覚的なスタイルに具体的な基盤が提供されます。

VLM (Vision-Language Model) とは、画像とテキストを同時に理解できるAIモデルを指します。ここでは、VLMが参照図面を調べ、必要なものと視覚的に類似した図面を見つけ出すことを行います。これは、ポートフォリオを閲覧して、一致するデザインパターンを見つけるのに似ています。

プランナーエージェント

このシステムの認知的な中核部分です。ソースのコンテキスト、コミュニケーションの意図、および取得された例をインプットとして受け取ります。この部分では、提供されたデモンストレーションからin-context learning（コンテキスト内学習）を実行し、プランナーがソースをターゲットとなる図の構造化された説明に変換します。この説明には、コンポーネント、接続、レイアウト、および論理的な流れが含まれます。

スタイリストエージェント

デザインコンサルタントとして、学術的な美的基準を遵守することを保証します。数百の人が作成した図面を分析して得られた、自動生成されたスタイルガイドを使用します。スタイリストは、計画された説明を最適化し、具体的な色のパレット、タイポグラフィ、アイコン、およびレイアウトの調整に関する視覚的な指示を提供します。

自動生成されたスタイルガイド：「優れた学術図」がどのようなものかを手動で定義する代わりに、このシステムは、トップカンファレンスから収集された数百の人間が作成した図を自動的に分析し、一般的なデザインパターンを抽出します。具体的には、推奨されるカラーパレット、フォントの選択、アイコンのスタイル、およびレイアウトの慣習などが抽出されます。

ビジュアライザーエージェント

スタイルが最適化された説明に基づいて、学術的なイラストを生成します。画像生成モデル（Nano-Banana-ProまたはGPT-Image-1.5）を活用します。`統計的なグラフ`の場合、Visualizerは数値の精度を確保するために、実行可能なPython Matplotlibコードを生成します。

批評エージェント

Visualizer と連携し、クローズド・ループの改善メカニズム を形成します。各イテレーションで生成された画像を分析し、コンテンツの正確性、視覚的な明瞭さ、およびスタイルの一貫性に関する問題を特定し、その結果、再生成のための改良された説明を提供します。品質を確保するために、T=3 のイテレーションを実行します。

統計プロットの拡張機能

このフレームワークは、統計的なグラフにも適用可能であり、そのためにVisualizerとCriticのエージェントが調整されています。Visualizerは、記述を、数値精度を考慮した実行可能なPython Matplotlibコードに変換します。Criticは、ソースの表形式データとの比較によって、生成されたグラフの視覚的な品質とデータの正確性を検証し、生成されたグラフが元のデータに忠実であることを保証します。

統計グラフを作成する場合、画像ファイルを直接生成するよりも、コード（Python Matplotlib）を生成する方が推奨されます。なぜなら、コードはデータの正確な値、軸のスケール、ラベルを正確に再現できるからです。画像生成は見た目の美しいグラフを作成できる可能性がありますが、実際の数値が誤っている場合があります。

ベンチマーク構築

自動図生成の厳密な評価を妨げていたのは、専用のベンチマークの不足です。この問題を解決するために、著者らはPaperBananaBenchという包括的なベンチマークを提案します。これは、NeurIPS 2025のメソッド論図から収集されたもので、292のテストケースで構成されており、現代の学術論文における洗練された美学と多様な論理構造を捉えています。

コレクションと解析

2,000 件の論文を、5,275 件の NeurIPS 2025 の発表論文からランダムに抽出しました。MinerU ツールキットは、PDF ファイルからテキストコンテンツと図を抽出します。

フィルタリング

手法に関する図がない論文は除外されます（これにより、1,359件の有効な候補が得られました）。アスペクト比を[1.5, 2.5]に制限した結果、最終的なテストケースは292件となりました。

分類

視覚的なトポロジーに基づいた4つのカテゴリ：Agent & Reasoning (31.5%)、Vision & Perception (25.0%)、Generative & Learning (25.0%)、Science & Application (18.5%)。

人間のキュレーション

アノテーターは、方法の説明、キャプション、図の正確性、およびカテゴリラベルを確認し、データの整合性と品質を保証します。

PaperBananaBench statistics — **図3:** PaperBananaBenchテストセット（292サンプル）の統計。左：カテゴリ分布。右：幅-高さ比の分布。

評価プロトコル

コンテンツの寸法

忠実性： ソーステキストの文脈（方法論の説明）との整合性、およびコミュニケーションの意図（キャプション）との一致。
簡潔性： 視覚的な雑然や冗長な要素を避け、主要な情報に焦点を当てます。

プレゼンテーションの寸法

可読性： わかりやすいレイアウト、読みやすい文字、過度な折り返しがない。
美学: 学術論文の様式に関する規範の遵守。

参照スコアリング： VLMの評価者は、モデルが生成した図面を、人間の作成した参照図面と比較し、各次元について、モデルが優れている場合は（スコア100）、同等である場合は（50）、人間が優れている場合は（0）と判断します。

採点システムの理解

評価では、"VLM-as-a-Judge"のアプローチを使用しており、AIモデルが専門家の審査員として機能します。各図について、AIが生成したバージョンと、人間が作成したオリジナルを比較します。

スコア100: AIが生成した図が、人間の作成したバージョンよりも優れている。
スコア50: 両バージョンがほぼ同等（これが人間の基準値）。
スコア0: 人間が作成したバージョンが優れている。

したがって、PaperBananaが全体で60.2のスコアを獲得した場合、これは、平均的にAIが生成した図が、わずかに人間の作成した図を上回ることを意味し、これは素晴らしい成果です。

実験と結果

比較される3つの基準設定は以下の通りです：(1) Vanilla — 画像生成モデルに直接指示を与える方法；(2) Few-shot — vanillaに加えて、参照例を使用する方法；(3) Agentic Frameworks — DiagramAgent、SciDraw、およびPaperBanana。VLMの基盤モデルはGemini-3-Proで、画像生成モデルはNano-Banana-ProとGPT-Image-1.5を使用します。

評価プロトコルは、モデル間の合致（Gemini-3-Proの評価者とGPT-5の間でKendall's tauが0.4を超える）および人間による評価（50のサンプルについて、人間の評価者との合致率が72%）によって検証されています。

Kendall's tau は、2つの順位付けの間の合致度を測る統計指標です（範囲：-1から+1）。0.4を超える値は、比較的強い合致を示し、異なるAI評価者が図を類似した順序でランク付けする傾向があることを意味します。これは、評価が信頼できることを裏付けています。

Main results on PaperBananaBench — **表1:** PaperBananaBenchにおける主要な結果。PaperBananaは、すべての次元で最高スコアを達成し、総合スコアは60.2（人間によるベースラインは50.0）です。

PaperBananaは、すべての指標において、常に他のベースラインを上回る優れたパフォーマンスを発揮します。Vanilla Nano-Banana-Proのベースラインと比較して、忠実性で+2.8%、簡潔性で+37.2%、読みやすさで+12.9%、そして美しさで+6.6%の向上を達成し、全体として+48.7%の改善に貢献しています。

DiagramAgent と SciDraw は、TikZ コード生成に依存しているため、性能が大幅に劣ります。コードベースのアプローチでは、現代の学術論文で期待されるような視覚的な洗練を捉えることが困難です。全体的な進歩が見られるものの、PaperBanana は依然として人間の基準と比較して精度が低く、微細な接続エラーが主な課題となっています。

TikZ は、コードを通じてベクトルグラフィックを作成するためのLaTeXパッケージです。正確で拡大縮小可能な図を作成できますが、コードが複雑であり、結果として得られる図は、最新の画像生成アプローチと比較して、しばしば硬く、時代遅れに見えます。

Performance comparison by dimension — **図4：** 評価の次元における性能比較 — Vanilla vs. PaperBanana vs. 人間の参照。

アブレーションスタディ

Ablation study results — **表2:** PaperBananaBenchにおけるアブレーション実験。各エージェントの構成要素を系統的に除去し、その貢献度を評価します。

アブレーション研究により、各エージェント構成要素の貢献が見えてきます。

Retriever Agent: 意味解析に基づく検索機能は、ランダムな選択や検索機能なしのベースラインと比較して、大幅に優れた性能を発揮します。参照例がない場合、システムは構造的な基盤を失います。
スタイリストエージェント: 簡潔性 (+17.5%) と美観 (+4.7%) を向上させますが、わずかに忠実性 (-8.5%) を低下させる可能性があります。これは、視覚的な調整が、細部までの正確さを損なうことがあるためです。

なぜ、スタイルを追加すると精度が低下するのか？ これは、可視化における一般的なトレードオフです。図をより視覚的に洗練させること（レイアウトの改善、ラベルの削減、接続の簡素化など）は、時には技術的な正確さを犠牲にする可能性があります。これは、詳細なエンジニアリング図面と、洗練されたマーケティングインフォグラフィックの違いに似ています。後者は見た目が優れていますが、微妙な技術的な詳細が省略されている可能性があります。

Critic Agent: 追加の反復処理は、すべての指標を大幅に向上させ、美観と技術的な正確性のバランスを確保します。デフォルトの3回の反復処理が、全体として最適なトレードオフを提供します。

統計グラフの生成

PaperBananaは、VisualizerとCriticのエージェントを調整することで、統計的なプロットの生成機能を拡張します。統計的なプロットの場合、Visualizerは、数値精度を確保するために、実行可能なPythonのMatplotlibコードを生成します。Criticは、視覚的な品質とデータの正確性の両方を確認します。

キュレーションされたテストデータセットにおいて、PaperBananaは、すべての側面で、標準的なGemini-3-Proを常に上回っています。画像生成アプローチは、より視覚的に魅力的なグラフを生成しますが、忠実性に誤り（不正確なデータ値、重複したカテゴリ）を導入する可能性があります。一方、コードベースのアプローチは、視覚的な洗練度を犠牲にして、データの正確性を確保します。

Code vs Image generation for statistical plots — 図5：統計グラフの生成における、コードベースのアプローチと画像ベースのアプローチの比較。画像ベースのアプローチは、より優れた美観をもたらす可能性があるものの、データの正確性に関する問題を引き起こす可能性があります。

議論

手書き図の美しさを向上させる

非常に興味深い応用例です。PaperBananaの自動要約機能による美的ガイドラインは、既存の人間が作成した図面を向上させることができるのでしょうか？このシステムは、具体的な改善領域（カラーパレット、フォント、アイコン、コネクタ、線の太さ、形状など）を特定し、Nano-Banana-Proを通じてそれらを適用することで、元の図面の内容を維持しながら、その図面を洗練します。

Enhancing aesthetics of human-drawn diagrams — **図6：** 人間が描いた図の美観の向上。左：元の図。中央：提案された改善点。右：改善されたバージョン。

統計プロットのためのコーディングと画像生成の比較

統計的なグラフの場合、コードベースのアプローチは、データの正確性において目覚ましい効果を発揮しますが、画像生成は、視覚的な美しさに優れています。選択は優先順位によって決まります。数値の精度が重要な場合は、コードベースの生成が好まれます。一方、視覚的な魅力やデザインの品質が重要な場合は、画像生成が有利ですが、それに伴い、時折、忠実性が損なわれるリスクがあります。

精度と美しさのジレンマ： Nano-Banana-Proのような画像生成モデルは、視覚的に美しいグラフを作成しますが、時々データを捏造することがあります（例えば、棒の高さが間違っている、またはカテゴリが重複している）。コード生成は「退屈だが信頼性が高い」— 常にデータが示す内容を正確にプロットしますが、視覚的なデザインはMatplotlibのテンプレートで提供されるものに限られます。

結論

PaperBananaは、学術論文で利用可能な高品質な図表を自動生成するように設計されたエージェント基盤のフレームワークです。 Retriever、Planner、Stylist、Visualizer、およびCriticといった専門的なエージェントを連携させることで、科学的なコンテンツを、高忠実度の方法論図と統計プロットに変換します。付属のPaperBananaBenchベンチマークは、厳密な評価を可能にし、包括的な実験により、既存の方法と比較して大幅な改善が見られることが示されています。

制約事項と今後の展望

ラスター出力

出力はラスター形式であり、編集が困難です。今後の展望として、SVG再構成のための要素抽出や、ベクターデザインソフトウェア向けのGUIエージェントの開発が考えられています。

スタイル vs. 多様性

統一されたスタイルガイドは、一貫性を確保しますが、表現の多様性を減少させます。今後の課題：ユーザーがカスタマイズ可能なスタイル設定と、多様な出力オプションの提供。

忠実性のギャップ

詳細な接続エラーが依然として主要な課題です。今後の展望として、構造的な正確性を検証するための、専門的な検証モデルと構造化された出力形式の開発が挙げられます。

評価の課題

参照情報を基にしたVLM-as-a-Judgeには、本質的な限界があります。今後の研究課題として、参照情報を用いない評価指標と、多次元的な評価フレームワークの開発が挙げられます。

単一出力

現在、1つのクエリに対して1つの出力しか生成しません。今後の展望として、多様な生成サンプルを用いたテスト時のスケーリングにより、様々な美的嗜好に対応することを目指します。

事例研究

Case studies comparing Human, Nano-Banana-Pro, and PaperBanana — **図7:** 人間が作成した図、Nano-Banana-Proの出力、およびPaperBananaの結果を比較した詳細な事例研究。PaperBananaは、モダンなカラーパレット、情報の簡潔さ、および色分けされたモジュールによる論理的な明瞭さにおいて、その利点を実証しています。

Style enhancement: Original vs Enhanced diagrams — **図8:** スタイル改善の事例 — 元の図 (左) と PaperBanana で改善されたバージョン (右)。このシステムは、改善されたカラーパレット、書体、レイアウトの構成、および視覚的な階層構造を適用します。

IMG vs Code comparison for statistical plots — **図9:** 画像ベースとコードベースの統計プロット生成の詳細な比較。画像生成はより視覚的に魅力的な結果を生み出す可能性がありますが、データの一貫性に関する問題を引き起こす可能性があります。一方、コード生成は正確性を保証します。

参考文献

参考文献（32件）

Anthropic. Claude Sonnet 4, 2025.
J. Belouadi and S. Eger. DeTikZify: Synthesizing graphics programs for scientific figures and sketches with TikZ. NeurIPS, 2024.
J. Belouadi, A. Lauscher, and S. Eger. AutomaTikZ: Text-guided synthesis of scientific vector graphics with TikZ. arXiv:2310.00367, 2023.
J. Belouadi et al. TikZero: Zero-shot text-guided graphics program synthesis. ICCV, 2025.
BIT-DataLab. Edit Banana, Oct. 2025.
Y. Chang et al. SridBench: Benchmark of scientific research illustration drawing. arXiv:2505.22126, 2025.
Z. Chen et al. CoDa: Agentic systems for collaborative data visualization. arXiv:2510.03194, 2025.
J. Cohen. Statistical power analysis for the behavioral sciences. Routledge, 2013.
G. Comanici et al. Gemini 2.5. arXiv:2507.06261, 2025.
G. DeepMind. Introducing Nano Banana Pro, 2025.
V. Dibia. LIDA: Automatic generation of grammar-agnostic visualizations. ACL, 2023.
V. Dibia and C. Demiralp. Data2Vis: Automatic generation of data visualizations. IEEE CGA, 2019.
T. Galimzyanov et al. Drawing Pandas: A benchmark for LLMs in generating plotting code. MSR, 2025.
Z. Ghahramani. Probabilistic machine learning and artificial intelligence. Nature, 2015.
K. Goswami et al. PlotGen: Multi-agent LLM-based scientific data visualization. arXiv:2502.00988, 2025.
J. Gottweis et al. Towards an AI Co-Scientist. arXiv:2502.18864, 2025.
M. Hollander et al. Nonparametric statistical methods. Wiley, 2013.
S. Huang et al. SciFig: Towards automating scientific figure generation. arXiv:2601.04390, 2026.
P. Langley. Scientific discovery: Computational explorations of the creative processes. MIT Press, 1987.
P. Langley. Integrated systems for computational scientific discovery. AAAI, 2024.
Z. Lin et al. AutoFigure-Edit: Generating editable scientific illustration, 2026.
A. Liu et al. DeepSeek-V3 technical report. arXiv:2412.19437, 2024.
Z. Liu et al. Paper2Any, Oct. 2025.
C. Lu et al. The AI Scientist: Towards fully automated open-ended scientific discovery. arXiv:2408.06292, 2024.
J. Niu et al. MinerU document parser. arXiv, 2025.
OpenAI. GPT-Image-1, 2025.
OpenAI. Introducing GPT-5, 2025.
W. Pang et al. Paper2Poster: Multimodal poster automation. arXiv:2505.21497, 2025.
A. Quispel et al. Aesthetics and clarity in information visualization. Arts, 2018.
J. Rodriguez et al. FigGen: Text to scientific figure generation. arXiv:2306.00800, 2023.
J. Schmidhuber. Artificial scientists & artists based on the formal theory of creativity. AGI, 2010.
W. Seo et al. Automated visualization code synthesis via multi-path reasoning. arXiv:2502.11140, 2025.