北京大学 · Google Cloud AI Research
PaperBananaは、学術論文で利用可能な高品質なイラストを自動生成するエージェントベースのフレームワークです。Retriever、Planner、Stylist、Visualizer、そしてCriticという5つの専門的なエージェントを連携させることで、科学的なコンテンツを高品質な方法論図や統計グラフに変換します。また、PaperBananaBenchというベンチマークが付属しており、4つの側面における厳密な評価のための292件のテストケースを提供します。
自律的な科学的発見は、人工汎用知能 (Artificial General Intelligence, AGI) の長年の課題です。大規模言語モデル (Large Language Models, LLMs) の急速な進化に伴い、自律型 AI 研究者 (Autonomous AI Scientists) は、研究ライフサイクルの多くの側面を自動化する可能性を示しており、文献調査やアイデア創出から、実験設計や論文作成まで、幅広い分野に貢献しています。
しかし、出版可能なイラストレーションの作成は、依然として多くの労力と時間を要するボトルネックとなっています。以前の、TikZやMatplotlibを使用したコードベースのアプローチでは、視覚的な美しさに欠け、現代の学術論文で期待される品質に達しない結果が生じることがありました。
PaperBananaは、高品質な学術的なイラストの制作を自動化することで、このギャップを埋めます。メソッドの説明と図の説明文を入力として受け取り、専門のシステムを連携させて、出版可能なビジュアル表現を生成します。
テキストによる説明から、学術論文に掲載可能な高品質なイラストを生成するために、5つの専門的なエージェント(Retriever, Planner, Stylist, Visualizer, Critic)を連携させる、完全に自動化されたエージェントフレームワーク。
NeurIPS 2025の論文から収集された292件のテストケースを用いた、包括的なベンチマークです。評価項目は、以下の4つの次元で構成されます: Faithfulness (忠実性)、Conciseness (簡潔性)、Readability (可読性)、および Aesthetics (美観)。
すべての評価項目において、既存の主要な手法を常に上回り、+2.8%のFaithfulness(信頼性)、+37.2%のConciseness(簡潔性)、+12.9%のReadability(読みやすさ)、および+6.6%のAesthetics(美しさ)の向上を達成しています。
この論文では、自動的な学術的なイラスト生成を、あるソースのコンテキストとコミュニケーションの意図から、視覚的な表現へのマッピングを学習する問題として形式化しています。
ソースコンテキスト \(S\) には、重要な方法論に関する情報が含まれており、コミュニケーションの意図 \(C\)(通常は図の説明文)は、イラストが何を伝えるべきかを指定します。マッピング関数 \(F\) は、イラストを生成します。\(I = F(S, C; \mathcal{E})\)。この生成は、必要に応じて、参照例 \(\mathcal{E} = \{E_n\}_{n=1}^{N}\) によってガイドされます。ここで、各 \(E_n = (S_n, C_n, I_n)\) は、ソースコンテキスト、コミュニケーションの意図、および対応するイラストのセットです。
これは、科学的なアイデアを翻訳するようなものです。ユーザーは以下のものを提供します:
システムは、その後、あなたのメソッドを視覚的に伝えるイラストレーション I を生成します。これは、グラフィックデザイナーがあなたの論文を読んで図を作成するプロセスと似ていますが、完全に自動化されています。
様々な種類の学術的なイラストレーションの中でも、本稿では方法論図に焦点を当てています。これらは、複雑な技術的概念や論理的な流れをテキスト記述から解釈し、高忠実度で視覚的に魅力的な図に変換することを必要とします。このフレームワークは、統計プロットにも適用されます。
PaperBananaは、5人の専門エージェントからなる共同チームを編成します。このフレームワークは、2つの段階で動作します。まず、線形計画段階があり、ここでRetriever、Planner、およびStylistエージェントが順番に入力データを処理します。次に、反復改善ループがあり、ここでVisualizerとCriticエージェントがT=3ラウンドで協力し、最終的なイラストを生成します。
なぜ5人のエージェントが必要なのか? 各エージェントは、図面作成の異なる側面を専門とし、デザインチームに似ています。一人が参照資料を探し、別の人がレイアウトを計画し、デザイナーがスタイルを追加し、イラストレーターが描画し、レビュアーがフィードバックを提供します。この分業により、単一のモデルにすべてを同時に行うよりも、より優れた結果が得られます。
VLM(Vision-Language Model)ベースのランキングを用いて、固定された参照例の集合から最も関連性の高いものを特定します。VLMは、研究分野(例:Agent & Reasoning)と図の種類(例:pipeline, architecture)の両方を照合して候補をランク付けするように指示されます。この際、トピックの類似性よりも視覚的な構造が優先されます。 これにより、構造的な論理と視覚的なスタイルに具体的な基盤が提供されます。
VLM (Vision-Language Model) とは、画像とテキストを同時に理解できるAIモデルを指します。ここでは、VLMが参照図面を調べ、必要なものと視覚的に類似した図面を見つけ出すことを行います。これは、ポートフォリオを閲覧して、一致するデザインパターンを見つけるのに似ています。
このシステムの認知的な中核部分です。ソースのコンテキスト、コミュニケーションの意図、および取得された例をインプットとして受け取ります。この部分では、提供されたデモンストレーションからin-context learning(コンテキスト内学習)を実行し、プランナーがソースをターゲットとなる図の構造化された説明に変換します。この説明には、コンポーネント、接続、レイアウト、および論理的な流れが含まれます。
デザインコンサルタントとして、学術的な美的基準を遵守することを保証します。数百の人が作成した図面を分析して得られた、自動生成されたスタイルガイドを使用します。スタイリストは、計画された説明を最適化し、具体的な色のパレット、タイポグラフィ、アイコン、およびレイアウトの調整に関する視覚的な指示を提供します。
自動生成されたスタイルガイド:「優れた学術図」がどのようなものかを手動で定義する代わりに、このシステムは、トップカンファレンスから収集された数百の人間が作成した図を自動的に分析し、一般的なデザインパターンを抽出します。具体的には、推奨されるカラーパレット、フォントの選択、アイコンのスタイル、およびレイアウトの慣習などが抽出されます。
スタイルが最適化された説明に基づいて、学術的なイラストを生成します。画像生成モデル(Nano-Banana-ProまたはGPT-Image-1.5)を活用します。`統計的なグラフ`の場合、Visualizerは数値の精度を確保するために、実行可能なPython Matplotlibコードを生成します。
Visualizer と連携し、クローズド・ループの改善メカニズム を形成します。 各イテレーションで生成された画像を分析し、コンテンツの正確性、視覚的な明瞭さ、およびスタイルの一貫性に関する問題を特定し、その結果、再生成のための改良された説明を提供します。 品質を確保するために、T=3 のイテレーションを実行します。
このフレームワークは、統計的なグラフにも適用可能であり、そのためにVisualizerとCriticのエージェントが調整されています。Visualizerは、記述を、数値精度を考慮した実行可能なPython Matplotlibコードに変換します。Criticは、ソースの表形式データとの比較によって、生成されたグラフの視覚的な品質とデータの正確性を検証し、生成されたグラフが元のデータに忠実であることを保証します。
統計グラフを作成する場合、画像ファイルを直接生成するよりも、コード(Python Matplotlib)を生成する方が推奨されます。なぜなら、コードはデータの正確な値、軸のスケール、ラベルを正確に再現できるからです。画像生成は見た目の美しいグラフを作成できる可能性がありますが、実際の数値が誤っている場合があります。
自動図生成の厳密な評価を妨げていたのは、専用のベンチマークの不足です。この問題を解決するために、著者らはPaperBananaBenchという包括的なベンチマークを提案します。これは、NeurIPS 2025のメソッド論図から収集されたもので、292のテストケースで構成されており、現代の学術論文における洗練された美学と多様な論理構造を捉えています。
2,000 件の論文を、5,275 件の NeurIPS 2025 の発表論文からランダムに抽出しました。MinerU ツールキットは、PDF ファイルからテキストコンテンツと図を抽出します。
手法に関する図がない論文は除外されます(これにより、1,359件の有効な候補が得られました)。アスペクト比を[1.5, 2.5]に制限した結果、最終的なテストケースは292件となりました。
視覚的なトポロジーに基づいた4つのカテゴリ:Agent & Reasoning (31.5%)、Vision & Perception (25.0%)、Generative & Learning (25.0%)、Science & Application (18.5%)。
アノテーターは、方法の説明、キャプション、図の正確性、およびカテゴリラベルを確認し、データの整合性と品質を保証します。
参照スコアリング: VLMの評価者は、モデルが生成した図面を、人間の作成した参照図面と比較し、各次元について、モデルが優れている場合は(スコア100)、同等である場合は(50)、人間が優れている場合は(0)と判断します。
評価では、"VLM-as-a-Judge"のアプローチを使用しており、AIモデルが専門家の審査員として機能します。各図について、AIが生成したバージョンと、人間が作成したオリジナルを比較します。
したがって、PaperBananaが全体で60.2のスコアを獲得した場合、これは、平均的にAIが生成した図が、わずかに人間の作成した図を上回ることを意味し、これは素晴らしい成果です。
比較される3つの基準設定は以下の通りです:(1) Vanilla — 画像生成モデルに直接指示を与える方法;(2) Few-shot — vanillaに加えて、参照例を使用する方法;(3) Agentic Frameworks — DiagramAgent、SciDraw、およびPaperBanana。VLMの基盤モデルはGemini-3-Proで、画像生成モデルはNano-Banana-ProとGPT-Image-1.5を使用します。
評価プロトコルは、モデル間の合致(Gemini-3-Proの評価者とGPT-5の間でKendall's tauが0.4を超える)および人間による評価(50のサンプルについて、人間の評価者との合致率が72%)によって検証されています。
Kendall's tau は、2つの順位付けの間の合致度を測る統計指標です(範囲:-1から+1)。0.4を超える値は、比較的強い合致を示し、異なるAI評価者が図を類似した順序でランク付けする傾向があることを意味します。これは、評価が信頼できることを裏付けています。
PaperBananaは、すべての指標において、常に他のベースラインを上回る優れたパフォーマンスを発揮します。Vanilla Nano-Banana-Proのベースラインと比較して、忠実性で+2.8%、簡潔性で+37.2%、読みやすさで+12.9%、そして美しさで+6.6%の向上を達成し、全体として+48.7%の改善に貢献しています。
DiagramAgent と SciDraw は、TikZ コード生成に依存しているため、性能が大幅に劣ります。コードベースのアプローチでは、現代の学術論文で期待されるような視覚的な洗練を捉えることが困難です。全体的な進歩が見られるものの、PaperBanana は依然として人間の基準と比較して精度が低く、微細な接続エラーが主な課題となっています。
TikZ は、コードを通じてベクトルグラフィックを作成するためのLaTeXパッケージです。正確で拡大縮小可能な図を作成できますが、コードが複雑であり、結果として得られる図は、最新の画像生成アプローチと比較して、しばしば硬く、時代遅れに見えます。
アブレーション研究により、各エージェント構成要素の貢献が見えてきます。
なぜ、スタイルを追加すると精度が低下するのか? これは、可視化における一般的なトレードオフです。図をより視覚的に洗練させること(レイアウトの改善、ラベルの削減、接続の簡素化など)は、時には技術的な正確さを犠牲にする可能性があります。これは、詳細なエンジニアリング図面と、洗練されたマーケティングインフォグラフィックの違いに似ています。後者は見た目が優れていますが、微妙な技術的な詳細が省略されている可能性があります。
PaperBananaは、VisualizerとCriticのエージェントを調整することで、統計的なプロットの生成機能を拡張します。統計的なプロットの場合、Visualizerは、数値精度を確保するために、実行可能なPythonのMatplotlibコードを生成します。Criticは、視覚的な品質とデータの正確性の両方を確認します。
キュレーションされたテストデータセットにおいて、PaperBananaは、すべての側面で、標準的なGemini-3-Proを常に上回っています。画像生成アプローチは、より視覚的に魅力的なグラフを生成しますが、忠実性に誤り(不正確なデータ値、重複したカテゴリ)を導入する可能性があります。一方、コードベースのアプローチは、視覚的な洗練度を犠牲にして、データの正確性を確保します。
非常に興味深い応用例です。PaperBananaの自動要約機能による美的ガイドラインは、既存の人間が作成した図面を向上させることができるのでしょうか? このシステムは、具体的な改善領域(カラーパレット、フォント、アイコン、コネクタ、線の太さ、形状など)を特定し、Nano-Banana-Proを通じてそれらを適用することで、元の図面の内容を維持しながら、その図面を洗練します。
統計的なグラフの場合、コードベースのアプローチは、データの正確性において目覚ましい効果を発揮しますが、画像生成は、視覚的な美しさに優れています。選択は優先順位によって決まります。数値の精度が重要な場合は、コードベースの生成が好まれます。一方、視覚的な魅力やデザインの品質が重要な場合は、画像生成が有利ですが、それに伴い、時折、忠実性が損なわれるリスクがあります。
精度と美しさのジレンマ: Nano-Banana-Proのような画像生成モデルは、視覚的に美しいグラフを作成しますが、時々データを捏造することがあります(例えば、棒の高さが間違っている、またはカテゴリが重複している)。コード生成は「退屈だが信頼性が高い」— 常にデータが示す内容を正確にプロットしますが、視覚的なデザインはMatplotlibのテンプレートで提供されるものに限られます。
PaperBananaは、学術論文で利用可能な高品質な図表を自動生成するように設計されたエージェント基盤のフレームワークです。 Retriever、Planner、Stylist、Visualizer、およびCriticといった専門的なエージェントを連携させることで、科学的なコンテンツを、高忠実度の方法論図と統計プロットに変換します。 付属のPaperBananaBenchベンチマークは、厳密な評価を可能にし、包括的な実験により、既存の方法と比較して大幅な改善が見られることが示されています。
出力はラスター形式であり、編集が困難です。今後の展望として、SVG再構成のための要素抽出や、ベクターデザインソフトウェア向けのGUIエージェントの開発が考えられています。
統一されたスタイルガイドは、一貫性を確保しますが、表現の多様性を減少させます。今後の課題:ユーザーがカスタマイズ可能なスタイル設定と、多様な出力オプションの提供。
詳細な接続エラーが依然として主要な課題です。今後の展望として、構造的な正確性を検証するための、専門的な検証モデルと構造化された出力形式の開発が挙げられます。
参照情報を基にしたVLM-as-a-Judgeには、本質的な限界があります。今後の研究課題として、参照情報を用いない評価指標と、多次元的な評価フレームワークの開発が挙げられます。
現在、1つのクエリに対して1つの出力しか生成しません。今後の展望として、多様な生成サンプルを用いたテスト時のスケーリングにより、様々な美的嗜好に対応することを目指します。