動画理解の急速な発展に伴い、既存のベンチマークはリーダーボードの肥大化したスコアと実際のモデル性能の乖離という重大な問題を露呈させながら飽和しつつある。この格差に対処するため、我々はVideo-MME-v2を提案する。これは動画理解のロバスト性と忠実性を厳密に評価するための包括的なベンチマークである。モデルの能力を体系的に評価するため、視覚情報の多点集約から時間的ダイナミクスのモデリング、そして最終的には複雑なマルチモーダル推論まで、動画理解の複雑さを段階的に高めるプログレッシブ3段階階層を設計した。従来の設問単位の正解率に代わり、関連する複数の質問に対する一貫性と多段階推論における整合性の両方を担保するグループベース非線形評価戦略を提案する。Video-MME-v2は、12名のアノテーターと50名の独立レビュアーが参加し、3,300人時のアノテーションと最大5回の品質保証プロセスを経た厳格な管理下で構築されている。広範な実験により、現時点の最高モデルGemini-3-Pro(49.4)と人間専門家(90.7)の間に大きな格差があることが明らかになった。
動画ベースのマルチモーダル大規模言語モデル(video MLLM)の近年の発展は、さまざまな理解・推論タスクにおいて目覚ましい進歩をもたらした。しかしこの進歩にもかかわらず、既存の評価はしばしば包括的な評価階層を欠き、特定タスクのベンチマークや個別トピックにおけるパフォーマンスを重視するため、全体的な評価が困難になっている。
さらに、従来の研究は主に設問ごとの正解率に焦点を当てており、評価における一貫した信頼性の高い動画理解の必要性を見落としている。個々の質問に正解できるモデルでも、質問をグループ化して一貫性を評価すると、真の理解を示せないことがある。こうした制限が最先端のvideo MLLMの徹底的な評価を妨げている。
Video-MME-v2の総合スコア。最高AIモデル(Gemini-3-Pro)は49.4%にとどまるのに対し、人間専門家は90.7%を達成しており、既存ベンチマークでは明確に示せない根本的な差が存在することが分かる。
Video-MME-v2は、動画理解の核となるスキルを複雑さが段階的に増す3つのレベルに分類する。全スキルを同等に扱うフラットなベンチマークとは異なり、この階層構造により、下位レベルの失敗が上位レベルの推論を制限するボトルネックを明らかにする。
従来の設問ごとの正解率では、真の理解なしに個々の質問で「運良く」正解できてしまう。Video-MME-v2では、同じ動画コンテンツに関する4つの関連質問(Q1〜Q4)すべてに正解した場合にのみグループを正解とするグループベース評価を導入する。これにより断片的な正解や推測に基づく正解にペナルティを与える。
2種類のグループを定義する。一貫性グループ(Consistency Groups)は同じ出来事を複数の視点から見たときに一貫した回答ができるかをテストし、整合性グループ(Coherence Groups)は各回答が前の回答から論理的に導かれる必要がある多段階推論チェーンをテストする。
コンビネーションロックで考えてみよう。各桁を個別に正解しても意味がなく、すべての桁が同時に正しく揃わなければならない。従来のベンチマークは各桁を個別にチェックして部分点を与える方式だ。Video-MME-v2のグループスコアリングは、関連する質問すべてに同時に正解することを要求する。ロックがすべての桁を揃えなければ開かないのと同じで、これにより運による正解や部分的な理解でベンチマークを攻略することを防ぐ。
データ品質は管理されたアノテーションパイプラインによって保証されている。12名のアノテーターが質問と正解を作成し、50名の独立レビュアーが最大5回の品質保証サイクルにわたりコンテンツを検証した。このプロセスにより、Video-MME-v2には表面的なパターンマッチングではなく真の動画理解を評価する、明確で高品質なベンチマーク項目のみが含まれる。
Video-MME-v2では、クローズドソースAPI(Gemini-3-Pro、GPT-5)からオープンソースモデル(Qwen、LLaVA、doubao-seed)まで14以上の最先端モデルを評価した。字幕あり・なしの両条件で全モデルを評価し、テキスト依存の推論とは別に純粋な視覚理解能力を測定した。
| Model | Frames | Overall (w. sub) | Overall (wo sub) | Level 1 (w. sub) | Level 2 (w. sub) | Level 3 (w. sub) |
|---|---|---|---|---|---|---|
| Human Expert | — | 90.7 | — | 94.8 | 91.1 | 87.9 |
| Gemini-3-Pro | 1fps | 49.4 | 38.2 | 64.0 | 50.0 | 40.6 |
| GPT-5 | 1fps | 43.3 | 35.2 | 54.4 | 47.0 | 34.1 |
| doubao-seed 2.0 pro | 1fps | 42.5 | 32.9 | 58.3 | 44.8 | 31.7 |
| llava-v2-onevision | 1fps | 38.6 | 29.9 | 52.6 | 43.1 | 27.4 |
| qwen2.5-70b-instruct | 50 | 37.0 | 26.4 | 44.5 | 39.1 | 31.1 |
一部の結果のみ表示。w. sub = 字幕あり、wo sub = 字幕なし。スコアはすべてグループベース正解率(%)。参考のため人間専門家のベースラインを含む。
各行はモデルの「グループ正解率」を示す。個々の質問に正解した頻度ではなく、関連する4つの質問すべてに同時に正解した頻度だ。w. sub=字幕あり(テキスト手がかりあり)、wo sub=字幕なし(純粋な視覚理解のみ)。
Video-MME-v2の知見は、マルチモーダルモデル研究コミュニティの今後の方向性を示している。レベル1(視覚的集約)の差を縮めることが最初の重要なステップである。頑健なマルチフレーム知覚なしには、時間的モデリングと複雑な推論は根本的に制約される。今後の研究ではフレーム間アテンションと時間的グラウンディングのアーキテクチャ改善を優先すべきだ。
Video-MME-v2は次世代の動画MLLMのための厳格なテストベッドを確立する。プログレッシブな3段階評価階層とグループベース非線形スコアリングを組み合わせることで、設問ごとの正解率では捉えられない現在の動画理解システムの限界を明らかにする。人間とAIの大きな差(90.7対49.4)と明確な階層的ボトルネック効果は、研究コミュニティに実行可能な洞察を提供する。Video-MME-v2はこれらの限界を明らかにすることで、リーダーボードで高スコアなだけでなく、実世界の動画コンテンツを真に頑健かつ忠実に理解できる動画MLLMの開発を促進することを目指している。
Video-MME-v2の知見は、研究コミュニティが優先すべき課題を示唆している:
このベンチマークはモデルが改善しても有効であり続けるよう設計されている。グループベース評価により、設問レベルのベンチマークよりも「飽和」が難しくなっている。
Video-MME-v2は、Video-MME(初代)、MVBench、EgoSchema、TemporalBench、VideoVistaなどの先行動画ベンチマークを基盤として拡張している。これらのベンチマークがキュレーションされた動画セットで個別質問の正解率を評価するのに対し、Video-MME-v2は複数の関連質問にわたる一貫した理解を要求するグループベース非線形評価を独自に導入している。評価手法の観点では、NLPのロバスト性評価(敵対的テストセットなど)のアプローチに着想を得て、それを動画マルチモーダルドメインに拡張している。
Video-MME-v2は、複数ジャンルにわたる多様な実世界の動画コンテンツをカバーしている。以下のサンプルフレームはデータセットの視覚的多様性と難易度を示している。