Video-MME-v2: 次世代動画理解ベンチマーク

Abstract

動画理解の急速な発展に伴い、既存のベンチマークはリーダーボードの肥大化したスコアと実際のモデル性能の乖離という重大な問題を露呈させながら飽和しつつある。この格差に対処するため、我々はVideo-MME-v2を提案する。これは動画理解のロバスト性と忠実性を厳密に評価するための包括的なベンチマークである。モデルの能力を体系的に評価するため、視覚情報の多点集約から時間的ダイナミクスのモデリング、そして最終的には複雑なマルチモーダル推論まで、動画理解の複雑さを段階的に高めるプログレッシブ3段階階層を設計した。従来の設問単位の正解率に代わり、関連する複数の質問に対する一貫性と多段階推論における整合性の両方を担保するグループベース非線形評価戦略を提案する。Video-MME-v2は、12名のアノテーターと50名の独立レビュアーが参加し、3,300人時のアノテーションと最大5回の品質保証プロセスを経た厳格な管理下で構築されている。広範な実験により、現時点の最高モデルGemini-3-Pro（49.4）と人間専門家（90.7）の間に大きな格差があることが明らかになった。

Introduction

既存の動画ベンチマークの限界

動画ベースのマルチモーダル大規模言語モデル（video MLLM）の近年の発展は、さまざまな理解・推論タスクにおいて目覚ましい進歩をもたらした。しかしこの進歩にもかかわらず、既存の評価はしばしば包括的な評価階層を欠き、特定タスクのベンチマークや個別トピックにおけるパフォーマンスを重視するため、全体的な評価が困難になっている。

さらに、従来の研究は主に設問ごとの正解率に焦点を当てており、評価における一貫した信頼性の高い動画理解の必要性を見落としている。個々の質問に正解できるモデルでも、質問をグループ化して一貫性を評価すると、真の理解を示せないことがある。こうした制限が最先端のvideo MLLMの徹底的な評価を妨げている。

AIと人間のパフォーマンスの差

49.4

最高性能AIモデル

90.7

人間専門家

Video-MME-v2の総合スコア。最高AIモデル（Gemini-3-Pro）は49.4%にとどまるのに対し、人間専門家は90.7%を達成しており、既存ベンチマークでは明確に示せない根本的な差が存在することが分かる。

Methodology

3段階評価階層

Video-MME-v2は、動画理解の核となるスキルを複雑さが段階的に増す3つのレベルに分類する。全スキルを同等に扱うフラットなベンチマークとは異なり、この階層構造により、下位レベルの失敗が上位レベルの推論を制限するボトルネックを明らかにする。

Level 1

視覚情報の集約

フレーム横断・モダリティ横断の情報を知覚し集約する能力。評価項目：色、行動検出、時間的順序付け、フレーム・音声アライメント、物理世界の知覚。

→

Level 2

時間的ダイナミクスのモデリング

因果推論、状態変化の追跡、順序的理解の評価。評価項目：変化検出、時間的推論、出来事の因果関係、シーケンス予測。

→

Level 3

複雑なマルチモーダル推論

実世界のシナリオを模した高度な動画理解。評価項目：社会的知性、複雑なストーリー理解、動画ベースの知識獲得。

グループベース非線形評価戦略

従来の設問ごとの正解率では、真の理解なしに個々の質問で「運良く」正解できてしまう。Video-MME-v2では、同じ動画コンテンツに関する4つの関連質問（Q1〜Q4）すべてに正解した場合にのみグループを正解とするグループベース評価を導入する。これにより断片的な正解や推測に基づく正解にペナルティを与える。

Score(group) = Π(Q1, Q2, Q3, Q4) — all questions must be correct for group credit
Consistency Group: Q1-Q4 test same video segment from multiple angles
Coherence Group: Questions require multi-step reasoning chain

2種類のグループを定義する。一貫性グループ（Consistency Groups）は同じ出来事を複数の視点から見たときに一貫した回答ができるかをテストし、整合性グループ（Coherence Groups）は各回答が前の回答から論理的に導かれる必要がある多段階推論チェーンをテストする。

「非線形」評価が重要な理由

コンビネーションロックで考えてみよう。各桁を個別に正解しても意味がなく、すべての桁が同時に正しく揃わなければならない。従来のベンチマークは各桁を個別にチェックして部分点を与える方式だ。Video-MME-v2のグループスコアリングは、関連する質問すべてに同時に正解することを要求する。ロックがすべての桁を揃えなければ開かないのと同じで、これにより運による正解や部分的な理解でベンチマークを攻略することを防ぐ。

Dataset

データセット：多様で新鮮、厳格にアノテーション済み

主要カテゴリ

800

動画数

3,300+

人時アノテーション

QAラウンド数

Video-MME-v2 category hierarchy circular chart — **図2(a)：** 5つの主要ドメイン（スポーツ・競技、知識・教育、芸術・エンタメ、日常生活、エンタメ・文化）と数十の細分化されたサブカテゴリを示す階層チャート。

Video publish month distribution — **図2(b)：** 動画投稿日分布（2024〜2026年）。大部分の動画は2025〜2026年のもので、モデルの学習データセットからのデータ汚染リスクを最小化している。

Video length distribution and word count statistics — **図2(c,d)：** 動画長の分布（上段）と、質問・回答・選択肢のワード数統計（下段）。多様な難易度レベルを示す。

Video view count distribution — **図2(e)：** 動画視聴回数の分布（対数スケール）。ニッチなコンテンツからバイラルコンテンツまでをカバーし、コンテンツ人気度における代表性を確保している。

厳格なアノテーションパイプライン

データ品質は管理されたアノテーションパイプラインによって保証されている。12名のアノテーターが質問と正解を作成し、50名の独立レビュアーが最大5回の品質保証サイクルにわたりコンテンツを検証した。このプロセスにより、Video-MME-v2には表面的なパターンマッチングではなく真の動画理解を評価する、明確で高品質なベンチマーク項目のみが含まれる。

なぜ3,300時間が必要か？1本の動画のアノテーションに平均30分（視聴・質問作成・回答検証）かかるとすると、800本以上の動画のアノテーションには膨大な労力が必要だ。5回のQAプロセスにより、各項目は採用前に約50回レビューされたことになる。これは自動化やクラウドソーシングによるアノテーションを使う多くのベンチマークとは大きく異なる。

Model Performance

モデル性能の概観

Model comparison benchmark results — **図1：** 5つのカテゴリにわたる包括的なモデル比較。円形チャート（左）はカテゴリ別スコアを、棒グラフ（右）は人間専門家から始まりオープンソースモデルまでのランキングを示す。Gemini-3-ProがAIモデルの中で最高スコアを達成しているが、人間の性能には大きく届いていない。

Experiments & Results

実験と結果

Video-MME-v2では、クローズドソースAPI（Gemini-3-Pro、GPT-5）からオープンソースモデル（Qwen、LLaVA、doubao-seed）まで14以上の最先端モデルを評価した。字幕あり・なしの両条件で全モデルを評価し、テキスト依存の推論とは別に純粋な視覚理解能力を測定した。

Model	Frames	Overall (w. sub)	Overall (wo sub)	Level 1 (w. sub)	Level 2 (w. sub)	Level 3 (w. sub)
Human Expert	—	90.7	—	94.8	91.1	87.9
Gemini-3-Pro	1fps	49.4	38.2	64.0	50.0	40.6
GPT-5	1fps	43.3	35.2	54.4	47.0	34.1
doubao-seed 2.0 pro	1fps	42.5	32.9	58.3	44.8	31.7
llava-v2-onevision	1fps	38.6	29.9	52.6	43.1	27.4
qwen2.5-70b-instruct	50	37.0	26.4	44.5	39.1	31.1

一部の結果のみ表示。w. sub = 字幕あり、wo sub = 字幕なし。スコアはすべてグループベース正解率（%）。参考のため人間専門家のベースラインを含む。

この表の読み方

各行はモデルの「グループ正解率」を示す。個々の質問に正解した頻度ではなく、関連する4つの質問すべてに同時に正解した頻度だ。w. sub＝字幕あり（テキスト手がかりあり）、wo sub＝字幕なし（純粋な視覚理解のみ）。

w. subとwo subの差：モデルがテキストと真の視覚理解のどちらに依存しているかが分かる
レベル1→レベル3：複雑さが増すにつれてスコアが一貫して低下し、階層的ボトルネックを確認
Gemini-3-Pro（総合49.4）でさえ人間専門家（90.7）の半分程度の性能にすぎない

Consistency and coherence group accuracy across Q1-Q4 — **図4：** 一貫性グループ（a）と整合性グループ（b）でのQ1〜Q4にわたる正解率の推移と、平均値対分散の散布図（c）。設問単位で高スコアのモデルがグループ評価では失敗することを示す。

Per-level performance breakdown with/without subtitles — **図5：** Thinking Gain/Regressionマーカー付きのレベル別（L1/L2/L3）パフォーマンス。思考ベースモデルは字幕ありで改善するが字幕なしでは低下することがあり、テキスト手がかりへの過度な依存を示す。

Radar chart showing multi-dimensional performance — **図6：** 全サブタスク（物理世界、時間的順序付け、行動・動作、色、複雑なストーリー等）にわたるレーダーチャート。人間専門家が全軸で優位に立ち、AIモデルは特に時間的推論と複雑なストーリー理解で弱点を示している。

Discussion

主要な知見

🧠

階層的ボトルネック効果

レベル1（視覚的集約）のエラーが上位に伝播し、レベル3の推論能力を制限する。マルチフレームの情報集約に苦労するモデルは、複雑な推論レベルで補完することができない。

📖

思考モデルの字幕依存性

推論時の計算を拡張する思考ベースモデルは字幕ありで改善するが、純粋な視覚環境では性能が低下することがあり、テキスト手がかりへの依存を示している。真の視覚理解ではなく字幕・テキストへの依存が露呈している。

現実のアナロジー：個別の事実を暗記しても総合的に応用できない生徒を想像してほしい。ステップバイステップで推論する「思考モデル」は、字幕・テキストを読んで理解するタスクでは優れているが、純粋に視覚のみで知覚する必要がある場面では苦労する。サッカーの試合について読んで理解できる生徒でも、ライブで観戦して理解するのは難しいのと同じだ。

🎯

グループ評価が隠れた失敗を明らかにする

設問ごとの正解率は一貫性・整合性の失敗を見逃す。グループベース戦略により、個別では高スコアのモデルでも関連する質問セットを通じてテストすると断片的な理解であることが明らかになる。

👤

人間専門家との大きな差

最高AIモデル（Gemini-3-Pro、49.4%）は人間専門家（90.7%）の約半分の性能にとどまり、急速な進歩にもかかわらず、根本的な動画理解能力は依然として人間レベルには遠く及ばないことを示している。

Video-MME-v2の知見は、マルチモーダルモデル研究コミュニティの今後の方向性を示している。レベル1（視覚的集約）の差を縮めることが最初の重要なステップである。頑健なマルチフレーム知覚なしには、時間的モデリングと複雑な推論は根本的に制約される。今後の研究ではフレーム間アテンションと時間的グラウンディングのアーキテクチャ改善を優先すべきだ。

Conclusion

結論

Video-MME-v2は次世代の動画MLLMのための厳格なテストベッドを確立する。プログレッシブな3段階評価階層とグループベース非線形スコアリングを組み合わせることで、設問ごとの正解率では捉えられない現在の動画理解システムの限界を明らかにする。人間とAIの大きな差（90.7対49.4）と明確な階層的ボトルネック効果は、研究コミュニティに実行可能な洞察を提供する。Video-MME-v2はこれらの限界を明らかにすることで、リーダーボードで高スコアなだけでなく、実世界の動画コンテンツを真に頑健かつ忠実に理解できる動画MLLMの開発を促進することを目指している。

動画AIの今後

Video-MME-v2の知見は、研究コミュニティが優先すべき課題を示唆している：

フレーム間アテンション：時間的順序を失わずに複数フレームの情報を集約するための優れたアーキテクチャ
視覚的グラウンディング：テキスト・字幕手がかりへの依存を減らし、真のピクセルレベル理解を向上させる
時間的推論：動画における因果的・順序的推論を明示的に報酬として与える新しい学習目標

このベンチマークはモデルが改善しても有効であり続けるよう設計されている。グループベース評価により、設問レベルのベンチマークよりも「飽和」が難しくなっている。

Related Work

Video-MME-v2：包括的な動画理解ベンチマークの次なるステージへ