---
arxiv_id: 2604.03016
title: "Agentic-MME: エージェント能力はマルチモーダルインテリジェンスに何をもたらすのか？ | Flecto"
authors:
  - Qianshan Wei
  - Yishan Yang
  - Siyi Wang
  - Jinglin Chen
  - Binyu Wang
  - Jiaming Wang
  - Shuang Chen
  - Zechen Li
  - Yang Shi
  - Yuqi Tang
  - Weining Wang
  - Yi Yu
  - Chaoyou Fu
  - Qi Li
  - Yi-Fan Zhang
difficulty: Advanced
tags:
  - Agent
  - Benchmark
  - Multimodal
  - Vision
published_at: 2026-04-03
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.03016/
lang: ja
---

## Page Title

### Agentic-MME: エージェント能力はマルチモーダルインテリジェンスに何をもたらすのか？ | Flecto

## Meta Description

### 418件の実世界タスクを用いたプロセス検証済みベンチマークで、マルチモーダルエージェント能力を評価する。最高性能モデル: Gemini 3 Pro 56.3% vs 人間 93.8%。

## Hero H1

### Agentic-MME: エージェント能力はマルチモーダルインテリジェンスに何をもたらすのか？

## Hero Subtitle

418件の実世界マルチモーダルタスク、3段階の難易度、2,000以上のステップごとのチェックポイントを持つプロセス検証済みベンチマーク — 最終回答の採点にとどまらず、モデルが どのように ツールを使うかを監査する。

## Hero Metric 1

### 6ドメインにわたる実世界タスク

## Hero Metric 2

### 最高モデルの総合精度（Gemini 3 Pro）

## Hero Metric 3

### 人間のパフォーマンス（Level 3での最高23.0%と比較）

## Hero Metric 4

### ステップごとのチェックポイント、タスクあたり平均10人時以上

## Hero Abstract Para1

マルチモーダル大規模言語モデル（MLLM）は、受動的な観察者から能動的なエージェントへと急速に進化している。これらのエージェントは、 Visual Expansion （ビジュアルツールを能動的に呼び出して画像を変換する）と Knowledge Expansion （ビジュアル操作とオープンウェブ検索を組み合わせ、視覚的には存在しない事実を取得する）を通じて問題を解決するようになっている。しかし、既存の評価には3つの重大な欠点がある。すなわち、ツール統合の柔軟性の欠如、視覚ツールと検索ツールを独立してテストすること、そして最終回答の正解のみで評価することである。このため、ツールが実際に呼び出されたか、正しく適用されたか、効率的に使用されたかを検証できない。

## Hero Abstract Para2

エージェント能力がマルチモーダルインテリジェンスに何をもたらすかを解明するため、我々は Agentic-MME を提案する。これは、6ドメイン・3難易度レベルにわたる418件の実世界タスクを含むプロセス検証済みベンチマークで、タスクあたり平均10人時以上の手動アノテーションを施した2,000以上のステップごとのチェックポイントを備える。各タスクには、サンドボックス化されたコード実行と構造化されたツールAPIをサポートする統一評価フレームワーク、そして二軸でアノテーションされた人間参照軌跡が付属する。二軸とは S軸 （戦略とツール実行）と V軸 （視覚的証拠の検証）である。実験結果では、最高モデルのGemini 3 Proが総合精度56.3%を達成するも、Level-3タスクでは23.0%に大幅低下し、実世界のマルチモーダルエージェントによる問題解決の難しさが浮き彫りになった。

## Hero Action Button

### arXivで読む ↗

## Introduction H2

### 1. はじめに

## Introduction Para1

マルチモーダル大規模言語モデルは、受動的な観察者から 能動的な調査者 へと急速に進化している。静的なスナップショットから回答するのではなく、現代のシステムはインタラクションによって問題を解決するようになっている。すなわち、画像を操作して細粒度の証拠を浮かび上がらせ、視覚的に存在しない事実を検証するために外部リソースを参照する。この変化は マルチモーダルエージェント能力 を体現しており、2つのコア次元に分解できる。（1） Visual Expansion ：入力を能動的に変換・分析（例：クロッピング、回転、拡張）して潜在的な手がかりを発見することでモデルが画像を使って思考できるようにする；（2） Knowledge Expansion ：オープンエンドのウェブ検索を通じてパラメトリックメモリを超え、実世界の事実を検証して曖昧さを解消できるようにする。

## Introduction Para2

このアクティブなパラダイムは複雑な実世界の問題解決を約束するものの、マルチモーダルエージェント能力の現在の評価は 断片的で不十分 なままである。既存のベンチマークのほとんどはツール使用の特定の側面を捉えているが、3つの重要な次元で失敗している — 真のマルチモーダルエージェントベンチマークはこれら3つすべてに同時に対処しなければならない。

## Introduction Gap Callout Heading

### 既存ベンチマークの3つの重大な欠陥

## Introduction Gap 1

柔軟性のないツール統合： 現在の評価では、ビジュアルツールの使用とオープンウェブ検索を切り離し、独立したモジュールとして扱っている。エージェントが任意のビジュアルツールと検索ツールを流動的に選択・切り替えられる統一フレームワークが存在しない。

## Introduction Gap 2

未開拓の相乗効果： Visual ExpansionとKnowledge Expansionの相互作用はほとんど未検証である。真のマルチモーダルエージェントは、単純なVisual Expansionや単独のKnowledge Expansionだけでは解決できない「絡み合った」タスクに優れなければならない。

## Introduction Gap 3

プロセス検証の欠如： 既存の評価は最終回答の正解に焦点を当てており、ツールが呼び出されたか、正しく適用されたか、効率的に使用されたかについて何の洞察も提供しない。不忠実なツール実行は見えないままである。

## Introduction Solution

Agentic-MMEはこれら3つのギャップすべてに対処する。418件の実世界タスク、Code（Gen）とAtomic（Atm）の両ツールインターフェースをサポートする統一実行ハーネス、そして細粒度のプロセスレベル検証を可能にする2,000以上の人間によるアノテーション付きステップごとのチェックポイントを備えた、慎重に設計されたベンチマークがその答えだ。

## Figure_001 Caption

図1： Agentic-MMEの3つの難易度レベル。Level 1は単一の決定的なビジュアル操作を要求する。Level 2はビジュアル操作とウェブ検索を組み合わせたマルチステップのワークフローを要求する。Level 3は曖昧さの下での高度な相乗的推論を要求する。

## Benchmark H2

### 2. Agentic-MMEベンチマーク

## Benchmark 2.1 H3

### 2.1 概要

## Benchmark Overview Para

Agentic-MMEは、エージェントがビジュアルツールを能動的に活用して画像コンテンツを変換・知覚し、タスク要件に応じてオープンウェブ検索と連携して必要な外部知識を取得するリアルなシナリオでマルチモーダルエージェント能力を評価するよう設計されている。ビジュアル操作やウェブ検索を単独でテストするベンチマークとは異なり、Agentic-MMEはこれら2つの能力の深い相乗効果を対象とする。ベンチマーク比較（表1）は、Agentic-MMEが異種ツールインターフェースのサポート、ツール相乗効果のテスト、プロセス検証の実現、効率測定、難易度レベルの定義をすべて同時に満たす唯一のベンチマークであることを示している。

## Benchmark Table1 Heading

### 表1：既存のマルチモーダルエージェントベンチマークとの比較

## Benchmark Table1 Caption

主要な能力と評価プロトコルの次元における比較。Agentic-MME（最下行）は、画像ツール、検索コア、プロセス検証、統合コード+ツールインターフェース、効率メトリクス、難易度レベルのすべての次元をカバーする唯一のベンチマークである。

## Benchmark 2.2 H3

### 2.2 タスク設定、難易度、メトリクス

## Benchmark Task Setup Para

各インスタンスは1枚以上の画像と質問を提供する。エージェントは、Visual Expansionのための13種類のビジュアル操作とKnowledge Expansionのための4つのオープンウェブ検索ツールを備えた統一ツール拡張インターフェース内で画像を能動的に操作することでタスクを解決する。タスクは、合理的な解答経路に沿ったインタラクションの複雑さに基づいて3つの難易度レベルに体系的に層別化されている。

## Level1 Card Heading

### 易しい — 単一操作

## Level1 Card Desc

### 単一のビジュアル操作（例：1回のクロップまたは回転）を要求する。平均チェックポイント数2.89、タスクあたりツール数1.21。

## Level2 Card Heading

### 中程度 — マルチステップワークフロー

## Level2 Card Desc

### 画像操作とオプションのウェブ検索を組み合わせたマルチステップワークフローを要求する。平均チェックポイント数4.64、タスクあたりツール数2.42。

## Level3 Card Heading

### 難しい — 高度な相乗効果

## Level3 Card Desc

### ビジュアル操作とウェブ検索の絡み合った複数ラウンドのインタラクションを要求する。単純な順次ツールチェーンでは解決できない。平均チェックポイント数6.67、タスクあたりツール数4.07。

## Benchmark Table2 Caption

### 表2： タスク難易度の分布。Level 3タスクはベンチマークの19.4%を占め、平均4.07のツールと6.67のチェックポイントを必要とする — Level 1より大幅に複雑である。

## Benchmark Metrics Heading

### 評価メトリクス

## Acc Metric

### 最終回答精度

## S Metric

### S軸：戦略とツール実行品質

## V Metric

### V軸：視覚的証拠の検証

## Ot Metric

### Overthinking：人間の軌跡に対する過剰なツール呼び出し

## Benchmark 2.3 H3

### 2.3 データ収集とアノテーション

## Benchmark Data Collection Para

データ収集パイプラインは バックワードドラフティング アプローチを採用する。質問を先に書くのではなく、アノテーターはビジュアルツールで知覚する必要がある高解像度の視覚的に複雑な画像から始め、各ステップをツールアクションと視覚的グラウンドトゥルースに基づいたマルチステップの軌跡を構築する。これにより、ツールの呼び出しが省略可能ではなく必須であることが保証される。パイプラインは4つのステージを経る：画像収集、バックワードドラフティング、粒度の細かいアノテーション、品質保証。

## Figure_002 Caption

図2： データ収集とアノテーションのパイプライン。（1）高解像度の視覚的に複雑な画像を収集する。（2）バックワードドラフティング：アノテーターは証拠から逆算してツール使用を必要とする質問を作成する。（3）ツールアクションと視覚的グラウンドトゥルースのステップごとのアノテーション。（4）合意と独立した検証による品質保証。

## Figure_003 Caption

図3： データセットの統計。（a）6ドメインにわたる階層分布（文化 12.5%、金融 19.5%、図表 31.3%、科学 12.2%、社会 18.4%、生活 14.4%）。（b）プロンプトと回答のトークン分布。（c）プロンプトキーワードのワードクラウド。（d）難易度レベルごとの平均ツール呼び出し回数とチェックポイント数 — Level 3が最も多くのツールインタラクションを必要とする。

## Benchmark Table3 Heading

### 表3：データセットの主要特性

## Benchmark Table3 Caption

430枚の画像、899ツール、6ドメイン / 35サブドメイン。平均画像解像度：1952×1747 px。43.1%のタスクに小さな視覚的手がかりがある（画像領域の10%未満）。29.4%のタスクが外部ウェブ検索を必要とする。

## Benchmark 2.4 H3

### 2.4 品質管理と保証

## Benchmark Quality Para

アノテーションされた各タスクは複数ラウンドの独立した検証を経る。品質管理には、エッジケースと失敗モードを体系的に調査するステップごとのオラクルテスト、そして複数の専門家がグラウンドトゥルース軌跡に合意しなければならないコンセンサス監査が含まれる。一貫性の閾値を満たさないタスクは修正または廃棄される。この厳格なプロセスにより、2,000以上のステップごとのチェックポイントが根拠に基づき、再現可能で、人間レベルの推論軌跡を忠実に表現することが保証される。

## Benchmark Quality Callout

### 各タスクは平均 10人時以上 の手動アノテーションを要する — これは忠実なステップごとの推論軌跡を捉えるために必要なプロセスレベル検証の深さを反映している。

## Benchmark 2.5 H3

### 2.5 統一ツールインターフェースと実行ハーネス

## Benchmark Tool Interface Para

Agentic-MMEの中心的な設計目標は、 異種 ツール実装にわたってエージェント能力をベンチマークすることである。統一実行ハーネスは2つのインターフェースをサポートする： Codeモード（Gen） （モデルがサンドボックス化されたPythonを書いてビジュアル変換を実行する）と Atomicモード（Atm） （モデルがOpenAI互換のJSONスキーマに従った構造化された関数呼び出しを通じてインタラクションする）。この管理された比較により、ツール能力が1つのトレーニング形式に縛られるのではなく、インターフェースを超えて汎化するかどうかをテストする。

## Benchmark Visual Expansion

### Visual Expansion（13ツール）

## Benchmark Visual Expansion Desc

### 隠れた証拠を浮かび上がらせ、細粒度の詳細を抽出し、または空間変換を適用するために画像を変換する能動的な画像操作ツール。

## Benchmark Knowledge Expansion

### Knowledge Expansion（4ツール）

## Benchmark Knowledge Expansion Desc

### パラメトリックメモリを超えて実世界の事実を検証し、外部検索を通じて曖昧さを解消するオープンウェブ検索ツール。

## Experiments H2

### 3. 実験

## Experiments 3.1 H3

### 3.1 実験設定

## Experiments Setup Para1

Agentic-MMEで多様なモデルセットを評価する。オープンソースモデル（Thyme-rl、DeepeEyes-V2、Qwen3-VL-235B、Qwen3-VL-8B-thinking、Qwen3-VL-32B-thinking）とクローズドソースモデル（Gemini 3ファミリー、Kimi-k2.5、GPT-5.2、Qwen3.5-plus）を含む。人間のリファレンスベースラインは、検索エンジンと知覚ツールの使用を許可された3名の独立した人間の解答者の平均値から得る。

## Experiments Setup Para2

各モデルは両方のツールインターフェースで評価される：サンドボックス化されたPython実行のための Codeモード（Gen） と構造化された関数呼び出しのための Atomicモード（Atm） 。この管理された比較により、ツール能力がインターフェースを超えて汎化するかどうかを直接テストする。すべての評価は完全にログ記録された再現可能なトレースで実行され、GPT-5-miniが主要な判定者として使用される — 人間の専門家による検証では、判定者の選択を超えて一貫した結果が示されている（表8）。

## Experiments 3.2 H3

### 3.2 Agentic-MMEの主要結果

## Experiments Finding1 Badge

### 発見 1

## Experiments Finding1 Text

すべてのモデルが人間のパフォーマンスを大幅に下回り 、Level-3では精度が急落する。人間の解答者は総合93.8%に達し、最難関の分割でも高い精度を維持する（L3: 82.3%）。最高モデルのGemini 3 Pro（Atm）は総合56.3%を達成するが、Level-3ではわずか33.3%にとどまる。ツールなしではGemini 3 ProのL3スコアは7.5%まで低下し、ツールへのアクセスで33.3%へと4.4倍の改善をもたらすが、人間（82.3%）とのギャップは依然として大きい。

## Experiments Finding2 Badge

### 発見 2

## Experiments Finding2 Text

オープンソースモデルはクローズドソースに遅れを取っており 、主に検索と計画立案の面で差がある。そのギャップはLevel-3で最も顕著だ：Qwen3 VL-235Bは10.1%に低下し、Thyme-rlは2.5%まで崩壊する。S軸がそのメカニズムを明らかにしている — 現在のオープンソースモデルはツールを呼び出せるが、マルチステップワークフローを確実にチェーンするために必要な検索と計画立案の洗練さをまだ習得していない。

## Experiments Finding3 Badge

### 発見 3

## Experiments Finding3 Text

Atomic（Atm）モードはモデル全体でCode（Gen）モードよりも精度を向上させる ことが多い。これは、構造化された関数呼び出しインターフェースが実装エラーを減らし、ツール使用の境界をより明確にすることで、より信頼性の高いステップごとの実行を可能にすることを示唆している。

## Experiments Table4 Heading

### 表4：Agentic-MMEの主要結果

## Experiments Table4 Caption

Gen・Atmモードにおける全評価モデルの総合・Level 1（L1）・Level 2（L2）・Level 3（L3）にわたる結果。メトリクス：Acc = 精度、S = S軸スコア、V = V軸有効性、V IT /V FT = 意図/忠実度トラッキング。人間の総合精度93.8%に対し、最高モデルは56.3%。

## Experiments 3.3 H3

### 3.3 詳細分析

## Experiments Further Analysis Para

パフォーマンスギャップの原因を理解するために2つの分析を行う：（1）各ツールカテゴリの貢献を分離するアブレーション研究、および（2）より良いツール実行によって達成可能な潜在的な改善を定量化するために視覚的手がかりとステップごとのガイダンスを提供する上限分析。

## Experiments Table5 Heading

### 表5：ツールアブレーション研究

## Experiments Table5 Caption

Gemini 3 FlashとQwen3 VL-235Bのアブレーション結果。設定：知覚のみ（ツールなし）、画像のみ（ビジュアルツールのみ）、検索のみ（ウェブ検索のみ）、フル（両方）。フル統合が最高パフォーマンスを達成 — ビジュアルツールと検索ツールは補完的であり、冗長ではない。

## Experiments Table6 Heading

### 表6：上限分析

## Experiments Table6 Caption

視覚的手がかり（+Visual Cues）とステップごとのガイダンス（+Stepwise Guidance）を提供したときのパフォーマンス。ステップごとのガイダンスによりGemini 3 Flashは52.24%から76.21%に向上 — より良い計画立案で上限が達成可能であることを示している。現在の自律的パフォーマンスとガイド付きパフォーマンスのギャップは、エージェント推論の改善のフロンティアを表す。

## Experiments Insight Callout

ステップごとのガイダンスを追加することでパフォーマンスが 52.24%から76.21% に向上 — 24ポイントの上昇は、現在のモデルが根本的な知覚能力ではなく、主に 計画立案と実行の信頼性 で失敗していることを示している。

## Experiments 3.4 H3

### 3.4 細粒度エラー分析

## Experiments Error Analysis Para

モデルが どのように 失敗するかを理解するために、3つの難易度レベル全体にわたって細粒度のエラー分析を行う。ヒートマップ（図4）はL1、L2、L3、および総合のエラーカテゴリ分布を示し、エラーパターンが難易度とともに大幅に変化することを明らかにしている。L3タスクでは、マルチホップ推論の失敗、検索統合エラー、視覚的曖昧さの管理ミスの割合が大幅に高く — これらは高度な相乗的ワークフローに固有のコアな課題である。

## Figure_004 Caption

図4： L1、L2、L3、および総合の細粒度エラー分析ヒートマップ。各行はモデルを表し、各列はエラーカテゴリを表す。濃いセルはそのカテゴリでのエラー率が高いことを示す。エラーの分布はL1（単純な単一ステップのエラー）からL3（複雑なマルチホップと相乗効果の失敗）へと大幅に変化する。

## Experiments Table7 Heading

### 表7：ツール呼び出し効率（呼び出し回数とOverthinking）

## Experiments Table7 Caption

GenおよびAtmモードにおけるモデルごとの平均ツール呼び出し回数とOverthinking（OT）スコア。GPT-5-miniが最も多くのツール呼び出しを行う（Gen: 12.13、Atm: 7.22）。高いOTは人間の参照軌跡に対して冗長なツール使用を示す。

## Experiments Table8 Heading

### 表8：判定者一貫性の検証

## Experiments Table8 Caption

異なる判定者（GPT-5-mini、Gemini-2.5-Flash、GPT-4o-mini、人間の専門家）を使用した評価結果。すべての判定者が同一のAcc（56.28）を示し、判定者の選択に関わらず評価の安定性が確認された。

## Related H2

### 4. 関連研究

## Related Card1 Heading

### ツール拡張型視覚的推論

## Related Card1 Desc

従来のベンチマークは静的なマルチモーダル入力を対象としている。最近の研究では能動的なマルチツール実行とビジュアル操作が探求されているが、オープンウェブ検索を周辺的なものとして扱う傾向がある — Google Searchは従来のベンチマークにおけるツール呼び出しの7%未満を占めるにすぎず — Visual ExpansionとKnowledge Expansionの相乗効果を評価できていない。

## Related Card2 Heading

### マルチモーダル検索と情報探索

## Related Card2 Desc

補完的な研究はオープンワールドの情報探索とマルチモーダルウェブブラウジングに焦点を当てている。しかし、CodeVが示すように、最終回答の正解のみに依存することは不忠実なツール実行を隠蔽する可能性がある。厳格なステップごとのプロセス検証の必要性についてのコンセンサスが高まっているにもかかわらず、中間の視覚的成果物はしばしば未検証のままである。

## Related Card3 Heading

### プロセスレベルの評価

## Related Card3 Desc

最近のマルチモーダルディープリサーチフレームワークは長文のレポート合成を進歩させているが、その主な目的は知識検索であり、視覚的グラウンディングの厳密さは限定的である。Agentic-MMEは細粒度のプロセス検証とツール効率測定を独自に組み合わせ、次世代のマルチモーダルエージェントのための診断フレームワークを確立する。

## Conclusion H2

### 5. 結論

## Conclusion Para1

我々はAgentic-MMEを提案する。これは、マルチモーダルエージェントにおける能動的なビジュアル操作（Visual Expansion）とオープンウェブ検索（Knowledge Expansion）の深い相乗効果を体系的に評価するために設計されたプロセス検証済みベンチマークである。不透明な最終回答採点を超え、2,000以上の人間によるアノテーション付きステップごとのチェックポイントに基づいた異種ツールインターフェースをサポートする統一実行ハーネスを貢献する。この二軸フレームワークにより、中間ツールの意図、視覚的成果物の忠実度、および実行効率の細粒度な監査が可能になる。

## Conclusion Para2

我々の評価は、特に複雑なワークフローにおけるフロンティアモデルと人間のパフォーマンスとの重大なギャップを明らかにする。現在のモデルは単純な順次ツールチェーンを実行できるが、高度な相乗的タスク — ファジー検索による視覚的曖昧さの解消、モダリティをまたいだ反復的な仮説検証 — には深刻な困難を抱えている。不忠実なツール実行と冗長な「overthinking」ループというボトルネックを特定することで、Agentic-MMEは堅牢で長期的なマルチモーダルエージェントを開発するための厳格な診断ロードマップを提供する。

## Conclusion Takeaway Heading

### 実践者のための主要な示唆

## Conclusion Takeaway Text

マルチモーダルAIシステムを構築している場合、Agentic-MMEはボトルネックが知覚ではなく、 曖昧さの下での計画立案 と 忠実なマルチツールオーケストレーション であることを明らかにする。静的なベンチマークで高スコアを獲得するモデルも、反復的なビジュアル検索とクロスモーダル検証を必要とするLevel-3タスクで崩壊する可能性がある。Agentic-MMEはこれらのギャップを特定して修正するための診断ツールである。

## References Accordion Summary

### 参考文献（39件）
