---
arxiv_id: 2601.23265
title: "PaperBanana: AI研究者向けの学術イラストの自動化"
authors:
  - Dawei Zhu
  - Rui Meng
  - Yale Song
  - Xiyu Wei
  - Sujian Li
  - Tomas Pfister
  - Jinsung Yoon
difficulty: Intermediate
tags:
  - Agent
  - Vision
  - Benchmark
published_at: 2026-01-30
flecto_url: https://flecto.zer0ai.dev/ja/papers/2601.23265/
lang: ja
---

## Hero Badge

### AIエージェント

### 学術イラストレーション

## Hero H1

### PaperBanana: AI研究者向けの学術イラストレーションの自動化

## Hero Authors

### Dawei Zhu、Rui Meng、Yale Song、Xiyu Wei、Sujian Li、Tomas Pfister、Jinsung Yoon

## Hero Institutions

### 北京大学 &middot; Google Cloud AI Research

## Hero Abstract

PaperBananaは、学術論文で利用可能な高品質なイラストを自動生成するエージェントベースのフレームワークです。Retriever、Planner、Stylist、Visualizer、そしてCriticという5つの専門的なエージェントを連携させることで、科学的なコンテンツを高品質な方法論図や統計グラフに変換します。また、PaperBananaBenchというベンチマークが付属しており、4つの側面における厳密な評価のための292件のテストケースを提供します。

## Hero Metric

### 忠実さ

### 簡潔さ

### 読みやすさ

## Hero Figcaption

### 図1： PaperBananaによって生成された、手法の図解と統計プロットの例。これは、本フレームワークが多様で、出版可能な学術的な図を作成できる能力を示しています。

## Introduction H2

### はじめに

## Introduction P

自律的な科学的発見は、人工汎用知能 (Artificial General Intelligence, AGI) の長年の課題です。大規模言語モデル (Large Language Models, LLMs) の急速な進化に伴い、自律型 AI 研究者 (Autonomous AI Scientists) は、研究ライフサイクルの多くの側面を自動化する可能性を示しており、文献調査やアイデア創出から、実験設計や論文作成まで、幅広い分野に貢献しています。

しかし、出版可能なイラストレーションの作成は、依然として多くの労力と時間を要するボトルネックとなっています。以前の、TikZやMatplotlibを使用したコードベースのアプローチでは、視覚的な美しさに欠け、現代の学術論文で期待される品質に達しない結果が生じることがありました。

PaperBananaは、高品質な学術的なイラストの制作を自動化することで、このギャップを埋めます。メソッドの説明と図の説明文を入力として受け取り、専門のシステムを連携させて、出版可能なビジュアル表現を生成します。

## Introduction Card H3

### PaperBanana Framework

### PaperBananaBench

### 優れたパフォーマンス

## Introduction Card P

テキストによる説明から、学術論文に掲載可能な高品質なイラストを生成するために、5つの専門的なエージェント（Retriever, Planner, Stylist, Visualizer, Critic）を連携させる、完全に自動化されたエージェントフレームワーク。

NeurIPS 2025の論文から収集された292件のテストケースを用いた、包括的なベンチマークです。評価項目は、以下の4つの次元で構成されます: Faithfulness (忠実性)、Conciseness (簡潔性)、Readability (可読性)、および Aesthetics (美観)。

すべての評価項目において、既存の主要な手法を常に上回り、+2.8%のFaithfulness（信頼性）、+37.2%のConciseness（簡潔性）、+12.9%のReadability（読みやすさ）、および+6.6%のAesthetics（美しさ）の向上を達成しています。

## Task H2

### タスクの定式化

## Task P

### この論文では、自動的な学術的なイラスト生成を、あるソースのコンテキストとコミュニケーションの意図から、視覚的な表現へのマッピングを学習する問題として形式化しています。

様々な種類の学術的なイラストレーションの中でも、本稿では 方法論図 に焦点を当てています。これらは、複雑な技術的概念や論理的な流れをテキスト記述から解釈し、高忠実度で視覚的に魅力的な図に変換することを必要とします。このフレームワークは、 統計プロット にも適用されます。

## Task Math

ソースコンテキスト \(S\) には、重要な方法論に関する情報が含まれており、コミュニケーションの意図 \(C\)（通常は図の説明文）は、イラストが何を伝えるべきかを指定します。マッピング関数 \(F\) は、イラストを生成します。\(I = F(S, C; \mathcal{E})\)。この生成は、必要に応じて、参照例 \(\mathcal{E} = \{E_n\}_{n=1}^{N}\) によってガイドされます。ここで、各 \(E_n = (S_n, C_n, I_n)\) は、ソースコンテキスト、コミュニケーションの意図、および対応するイラストのセットです。

## Methodology H2

### 方法論

## Methodology Figcaption

図2: PaperBananaフレームワークの概要。与えられたソースコンテキストとコミュニケーション意図に基づいて、システムは、線形計画フェーズ（Retriever → Planner → Stylist）を経て、反復的な改善ループ（Visualizer ↔ Critic、T=3ラウンド）を実行します。

## Methodology P

PaperBananaは、 5人の専門エージェント からなる共同チームを編成します。このフレームワークは、2つの段階で動作します。まず、 線形計画段階 があり、ここでRetriever、Planner、およびStylistエージェントが順番に入力データを処理します。次に、 反復改善ループ があり、ここでVisualizerとCriticエージェントがT=3ラウンドで協力し、最終的なイラストを生成します。

## Methodology Agent H3

### 検索エージェント

### プランナーエージェント

### スタイリスト エージェント

### ビジュアライザーエージェント

### 批評エージェント

## Methodology Agent P

VLM（Vision-Language Model）ベースのランキングを用いて、固定された参照例の集合から最も関連性の高いものを特定します。VLMは、研究分野（例：Agent & Reasoning）と図の種類（例：pipeline, architecture）の両方を照合して候補をランク付けするように指示されます。この際、 トピックの類似性よりも視覚的な構造が優先されます。 これにより、構造的な論理と視覚的なスタイルに具体的な基盤が提供されます。

このシステムの認知的な中核部分です。ソースのコンテキスト、コミュニケーションの意図、および取得された例をインプットとして受け取ります。この部分では、提供されたデモンストレーションから in-context learning（コンテキスト内学習） を実行し、プランナーがソースをターゲットとなる図の構造化された説明に変換します。この説明には、コンポーネント、接続、レイアウト、および論理的な流れが含まれます。

デザインコンサルタントとして、学術的な美的基準を遵守することを保証します。数百の人が作成した図面を分析して得られた、 自動生成されたスタイルガイド を使用します。スタイリストは、計画された説明を最適化し、具体的な色のパレット、タイポグラフィ、アイコン、およびレイアウトの調整に関する視覚的な指示を提供します。

スタイルが最適化された説明に基づいて、学術的なイラストを生成します。画像生成モデル（Nano-Banana-ProまたはGPT-Image-1.5）を活用します。` 統計的なグラフ `の場合、Visualizerは数値の精度を確保するために、実行可能なPython Matplotlibコードを生成します。

Visualizer と連携し、 クローズド・ループの改善メカニズム を形成します。 各イテレーションで生成された画像を分析し、コンテンツの正確性、視覚的な明瞭さ、およびスタイルの一貫性に関する問題を特定し、その結果、再生成のための改良された説明を提供します。 品質を確保するために、T=3 のイテレーションを実行します。

## Methodology Callout H3

### 統計プロットの拡張機能

## Methodology Callout P

このフレームワークは、統計的なグラフにも適用可能であり、そのためにVisualizerとCriticのエージェントが調整されています。Visualizerは、記述を、数値精度を考慮した実行可能な Python Matplotlibコード に変換します。Criticは、ソースの表形式データとの比較によって、生成されたグラフの視覚的な品質とデータの正確性を検証し、生成されたグラフが元のデータに忠実であることを保証します。

## Benchmark H2

### ベンチマーク構築

## Benchmark P

自動図生成の厳密な評価を妨げていたのは、専用のベンチマークの不足です。この問題を解決するために、著者らは PaperBananaBench という包括的なベンチマークを提案します。これは、NeurIPS 2025のメソッド論図から収集されたもので、292のテストケースで構成されており、現代の学術論文における洗練された美学と多様な論理構造を捉えています。

参照スコアリング： VLMの評価者は、モデルが生成した図面を、人間の作成した参照図面と比較し、各次元について、モデルが優れている場合は（スコア100）、同等である場合は（50）、人間が優れている場合は（0）と判断します。

## Benchmark Step H3

### コレクションと解析

### フィルタリング

### 人間のキュレーション

## Benchmark Step P

### 2,000 件の論文を、5,275 件の NeurIPS 2025 の発表論文からランダムに抽出しました。MinerU ツールキットは、PDF ファイルからテキストコンテンツと図を抽出します。

### 手法に関する図がない論文は除外されます（これにより、1,359件の有効な候補が得られました）。アスペクト比を[1.5, 2.5]に制限した結果、最終的なテストケースは292件となりました。

視覚的なトポロジーに基づいた4つのカテゴリ：Agent & Reasoning (31.5%)、Vision & Perception (25.0%)、Generative & Learning (25.0%)、Science & Application (18.5%)。

### アノテーターは、方法の説明、キャプション、図の正確性、およびカテゴリラベルを確認し、データの整合性と品質を保証します。

## Benchmark Figcaption

### 図3: PaperBananaBenchテストセット（292サンプル）の統計。左：カテゴリ分布。右：幅-高さ比の分布。

## Benchmark H3

### 評価プロトコル

## Benchmark Eval H4

### コンテンツの寸法

### プレゼンテーションの寸法

## Benchmark Eval Li

### 忠実性： ソーステキストの文脈（方法論の説明）との整合性、およびコミュニケーションの意図（キャプション）との一致。

### 簡潔性： 視覚的な雑然や冗長な要素を避け、主要な情報に焦点を当てます。

### 可読性： わかりやすいレイアウト、読みやすい文字、過度な折り返しがない。

### 美学: 学術論文の様式に関する規範の遵守。

## Experiments H2

### 実験と結果

## Experiments P

比較される3つの基準設定は以下の通りです： (1) Vanilla &mdash; 画像生成モデルに直接指示を与える方法； (2) Few-shot &mdash; vanillaに加えて、参照例を使用する方法； (3) Agentic Frameworks &mdash; DiagramAgent、SciDraw、およびPaperBanana。VLMの基盤モデルはGemini-3-Proで、画像生成モデルはNano-Banana-ProとGPT-Image-1.5を使用します。

評価プロトコルは、モデル間の合致（Gemini-3-Proの評価者とGPT-5の間でKendall's tauが0.4を超える）および人間による評価（50のサンプルについて、人間の評価者との合致率が72%）によって検証されています。

PaperBananaは、すべての指標において、常に他のベースラインを上回る優れたパフォーマンスを発揮します。Vanilla Nano-Banana-Proのベースラインと比較して、 忠実性で+2.8%、簡潔性で+37.2%、読みやすさで+12.9%、そして美しさで+6.6%の向上 を達成し、全体として+48.7%の改善に貢献しています。

DiagramAgent と SciDraw は、TikZ コード生成に依存しているため、性能が大幅に劣ります。コードベースのアプローチでは、現代の学術論文で期待されるような視覚的な洗練を捉えることが困難です。全体的な進歩が見られるものの、PaperBanana は依然として人間の基準と比較して精度が低く、微細な接続エラーが主な課題となっています。

### アブレーション研究により、各エージェント構成要素の貢献が見えてきます。

## Experiments Figcaption

### 表1: PaperBananaBenchにおける主要な結果。PaperBananaは、すべての次元で最高スコアを達成し、総合スコアは60.2（人間によるベースラインは50.0）です。

### 図4： 評価の次元における性能比較 &mdash; Vanilla vs. PaperBanana vs. 人間の参照。

### 表2: PaperBananaBenchにおけるアブレーション実験。各エージェントの構成要素を系統的に除去し、その貢献度を評価します。

## Experiments H3

### アブレーションスタディ

## Experiments Li

### Retriever Agent: 意味解析に基づく検索機能は、ランダムな選択や検索機能なしのベースラインと比較して、大幅に優れた性能を発揮します。参照例がない場合、システムは構造的な基盤を失います。

スタイリスト エージェント: 簡潔性 (+17.5%) と美観 (+4.7%) を向上させますが、わずかに忠実性 (-8.5%) を低下させる可能性があります。これは、視覚的な調整が、細部までの正確さを損なうことがあるためです。

### Critic Agent: 追加の反復処理は、すべての指標を大幅に向上させ、美観と技術的な正確性のバランスを確保します。デフォルトの3回の反復処理が、全体として最適なトレードオフを提供します。

## Plots H2

### 統計グラフの生成

## Plots P

PaperBananaは、VisualizerとCriticのエージェントを調整することで、統計的なプロットの生成機能を拡張します。統計的なプロットの場合、Visualizerは、数値精度を確保するために、実行可能なPythonのMatplotlibコードを生成します。Criticは、視覚的な品質とデータの正確性の両方を確認します。

キュレーションされたテストデータセットにおいて、PaperBananaは、すべての側面で、標準的なGemini-3-Proを常に上回っています。画像生成アプローチは、より視覚的に魅力的なグラフを生成しますが、忠実性に誤り（不正確なデータ値、重複したカテゴリ）を導入する可能性があります。一方、コードベースのアプローチは、視覚的な洗練度を犠牲にして、データの正確性を確保します。

## Plots Figcaption

図5： 統計グラフの生成における、コードベースのアプローチと画像ベースのアプローチの比較。画像ベースのアプローチは、より優れた美観をもたらす可能性があるものの、データの正確性に関する問題を引き起こす可能性があります。

## Discussion H3

### 手書き図の美しさを向上させる

### 統計プロットのためのコーディングと画像生成の比較

## Discussion P

非常に興味深い応用例です。PaperBananaの自動要約機能による美的ガイドラインは、既存の人間が作成した図面を向上させることができるのでしょうか？ このシステムは、具体的な改善領域（カラーパレット、フォント、アイコン、コネクタ、線の太さ、形状など）を特定し、Nano-Banana-Proを通じてそれらを適用することで、元の図面の内容を維持しながら、その図面を洗練します。

統計的なグラフの場合、コードベースのアプローチは、データの正確性において目覚ましい効果を発揮しますが、画像生成は、視覚的な美しさに優れています。選択は優先順位によって決まります。数値の精度が重要な場合は、コードベースの生成が好まれます。一方、視覚的な魅力やデザインの品質が重要な場合は、画像生成が有利ですが、それに伴い、時折、忠実性が損なわれるリスクがあります。

## Discussion Figcaption

### 図6： 人間が描いた図の美観の向上。左：元の図。中央：提案された改善点。右：改善されたバージョン。

## Related H2

### 関連研究

## Related H3

### 自動化された学術図表生成

### コーディングによるデータ可視化

## Related P

これまでの研究では、主にTikZを用いたコードベースの生成手法（DeTikZify, AutomaTikZ, TikZero）が用いられ、ベクターグラフィックスを生成していました。最近の画像生成モデル（Nano-Banana-Pro, GPT-Image-1.5）は、高忠実度の図を合成する上で目覚ましい進歩を遂げています。PaperBananaBenchに最も近いベンチマークは、複数のドメインにおける自動図表生成を評価するSridBenchです。

初期のLSTMベースのアプローチ（Data2Vis）から、LLMを活用したツールであるLIDA、MatplotAgent、およびCoDaに至るまで、この分野は、データと自然言語による記述から可視化コードを生成するために、言語モデルを使用する方向に進化してきました。これらのツールは、AIシステムが正確でカスタマイズ可能な統計的可視化を生成する能力が向上していることを示しています。

## Conclusion P

PaperBananaは、学術論文で利用可能な高品質な図表を自動生成するように設計されたエージェント基盤のフレームワークです。 Retriever、Planner、Stylist、Visualizer、およびCriticといった専門的なエージェントを連携させることで、科学的なコンテンツを、高忠実度の方法論図と統計プロットに変換します。 付属のPaperBananaBenchベンチマークは、厳密な評価を可能にし、包括的な実験により、既存の方法と比較して大幅な改善が見られることが示されています。

## Conclusion H3

### 制約事項と今後の展望

## Conclusion Card H4

### ラスター出力

### スタイル vs. 多様性

### 忠実性のギャップ

### 評価の課題

「 The rapid development of artificial intelligence (AI) has led to significant changes in various fields. This trend is expected to continue, and it is crucial to understand the implications of AI for society. In this report, we will examine the current state of AI technology and its potential impact on the economy, education, and healthcare. We will also discuss the ethical considerations surrounding AI and propose recommendations for responsible development and deployment. The report is authored by a team of experts from Stanford University , including Dr. John Smith , Professor Jane Doe , and Mr. David Lee . The research was conducted in collaboration with the National Institute of Standards and Technology (NIST) Further information can be found on the official website . 」

## Conclusion Card P

将テキストを日本語に翻訳してください。固有名詞、人名、所属、組織名はそのままにして、HTMLタグもそのまま記述してください。 出力はラスター形式であり、編集が困難です。今後の展望として、SVG再構成のための要素抽出や、ベクターデザインソフトウェア向けのGUIエージェントの開発が考えられています。

### 統一されたスタイルガイドは、一貫性を確保しますが、表現の多様性を減少させます。今後の課題：ユーザーがカスタマイズ可能なスタイル設定と、多様な出力オプションの提供。

### 詳細な接続エラーが依然として主要な課題です。今後の展望として、構造的な正確性を検証するための、専門的な検証モデルと構造化された出力形式の開発が挙げられます。

### 参照情報を基にしたVLM-as-a-Judgeには、本質的な限界があります。今後の研究課題として、参照情報を用いない評価指標と、多次元的な評価フレームワークの開発が挙げられます。

### 現在、1つのクエリに対して1つの出力しか生成しません。今後の展望として、多様な生成サンプルを用いたテスト時のスケーリングにより、様々な美的嗜好に対応することを目指します。

## Appendix H2

### 事例研究

## Appendix Figcaption

図7: 人間が作成した図、Nano-Banana-Proの出力、およびPaperBananaの結果を比較した詳細な事例研究。PaperBananaは、モダンなカラーパレット、情報の簡潔さ、および色分けされたモジュールによる論理的な明瞭さにおいて、その利点を実証しています。

図8: スタイル改善の事例 &mdash; 元の図 (左) と PaperBanana で改善されたバージョン (右)。このシステムは、改善されたカラーパレット、書体、レイアウトの構成、および視覚的な階層構造を適用します。

図9: 画像ベースとコードベースの統計プロット生成の詳細な比較。画像生成はより視覚的に魅力的な結果を生み出す可能性がありますが、データの一貫性に関する問題を引き起こす可能性があります。一方、コード生成は正確性を保証します。

## References H2

### 参考文献

## References Summary

以下の文章を日本語に翻訳してください。固有名詞、人名、所属、組織名は原文のままにしてください。HTMLタグはそのまま記述してください。翻訳のみを出力し、それ以外の記述は不要です。 Show all references (32 entries)