GameWorld: マルチモーダルゲームエージェントの標準化された評価システム

要約

34 Games 170 Tasks 18 Models 5 Genres

真に高度なAIエージェントを構築し、現実世界とインタラクションさせるためには、視覚認識、戦略的計画、正確なタイミング、そして長期的な持続的な行動を習得する必要があります。GameWorldは、これらの能力をテストするための理想的なプラットフォームであるビデオゲームを提供しますが、その評価は、一貫性のないアクションインターフェースと信頼性の低い検証方法によって制約されてきました。 GameWorldは、これらの問題を解決するために設計された新しいベンチマークです。これは、ゲームエージェントとしてマルチモーダル大規模言語モデル（MLLMs）を評価するための、標準化されたブラウザベースの環境を提供します。調査対象となるエージェントインターフェースは、2種類あります。Computer-Use Agentsは、キーボードとマウスを直接制御し、Generalist Agentsは、意味的なアクション関数を通じて動作します。34種類の多様なゲームと170のタスクにおいて、18種類のモデルとインターフェースの組み合わせによる結果から、最も優れた性能を示すエージェントであっても、人間のゲームプレイ能力に遠く及ばないことが明らかになりました。

主な貢献

01

標準化されたベンチマーク

5つのジャンル（アーケード、プラットフォーマー、パズル、ランナー、シミュレーション）にまたがる34種類のブラウザゲームがあり、合計170のタスクが含まれています。このシステムは、共有された、実行可能なアクション空間を通じて、コンピュータ利用エージェントと汎用エージェントの両方をサポートしており、これは決定論的なSemantic Action Parsingによって実現されています。

02

ステート検証評価

プログラムがエージェントのパフォーマンスをプログラム的に評価する、汎用的な結果ベースの評価ツールです。これは、ゲームの状態の検査を通じて行われます。従来のベンチマークがヒューリスティックやLLMを評価者として使用するのとは異なり、GameWorldはゲームの内部状態から実際の成果を検証します。

03

包括的な分析

広範な実験を行い、ベンチマークの堅牢性を、繰り返し行うフルベンチマークの再実行によって評価しました。さらに、リアルタイムインタラクション、コンテキスト・メモリへの感度、アクションの妥当性に関する詳細な研究、および詳細な故障モード分析を行いました。

ゲームエージェントインターフェース

GameWorldでは、ゲームエージェントを制御するための2つの異なるアプローチを研究しています。各ステップにおいて、エージェントは現在のゲームの状態のスクリーンショットを観察し、モデルを通じてアクションを生成し、そのアクションが環境によって実行されます。その後、検証可能な評価器が、結果の状態をタスクの目標と比較します。

GameWorld System Architecture — **図2：** GameWorldシステムのアーキテクチャ。4つの主要なコンポーネントを示しています。(i) 2種類のインターフェースを持つ、Game AgentsとしてのMLLMs。(ii) ブラウザベースのサンドボックス環境。(iii) ゲームとタスクのライブラリ。(iv) 結果に基づいた状態検証評価。

コンピュータ利用支援エージェント (Computer-Use Agent, CUA)

低レベルのキーボードおよびマウス操作を直接実行し、まるで人間がコンピュータを操作しているかのように動作します。このモデルは、ゲームの理解に基づいて、正確な物理的な入力を生成する必要があります。

操作: マウスクリック、スクロール、キー入力、ドラッグ、テキスト入力
UI要素をピクセルレベルで理解する必要がある。
より一般的なが、ゲーム固有のタスクには適していない場合があります。

汎用エージェント (GEN)

セマンティックな、ゲーム固有の関数呼び出し（例：`move_forward()`, `action_jump()`）を使用します。アクションは、セマンティック・アクション・パーシングによって、決定論的に低レベルのコントロールに変換されます。

アクション：ゲーム固有のセマンティック関数。例：`move_right()`、`weapon_fire()`
セマンティックアクションは、決定論的にコントロールにマッピングされます。
ゲームタスクにおいては、より正確な結果を得られますが、アクション空間の定義が必要となります。

ベンチマーク設計

ゲームにおけるエージェントの評価は、既存のベンチマークでは十分に解決されていない課題を提起します。ほとんどのベンチマークは、限られたジャンルのゲームにしか対応しておらず、リアルタイムゲームでは、エージェントの性能が推論速度と密接に結びついています。 GameWorldは、以下の4つの設計原則を通じて、これらの課題に対処します。

1

標準化されたアクションインターフェースは、セマンティックアクション解析によって、セマンティック関数を決定論的に低レベルの制御にマッピングします。

2

ブラウザベースのサンドボックス。一時停止・ステップ実行機能を備えており、推論の遅延をゲームプレイのタイミングから分離します。

3

多様なゲームコンテンツ：5つのジャンルにわたり、34種類のゲームと170のタスクを通じて、様々な能力を試すことができます。

4

State-Verifiable Evaluation：プログラムによるゲーム状態の検査を利用した、成果に基づいた評価。

Benchmark Comparison Table — **表2:** 既存のゲームおよびコンピュータ利用エージェントのベンチマークとの比較。GameWorldは、視覚入力、オンライン環境、標準化されたアクション、状態検証可能な評価、およびブラウザベースのアーキテクチャを組み合わせた唯一のベンチマークです。

34個のゲーム、5つのジャンル。

GameWorldは、5つのジャンル：Runner、Arcade、Platformer、Puzzle、およびSimulationにまたがる、34種類のブラウザベースのゲームで構成されています。各ジャンルは、迅速な反射能力や空間認識能力から、長期的な計画能力や資源管理能力まで、異なるエージェントの能力を試します。各タスクは、自然言語による指示、定量的な目標、および検証可能な評価者で構成されます。

Arcade

Platformer

Puzzle

Runner

Simulation

All 34 GameWorld Games (Part 1) — **図3：** GameWorldに収録されている34種類のゲームのスクリーンショット。アーケードゲームの定番から、プラットフォーマー、パズルゲーム、ランニングゲーム、シミュレーションゲームまで幅広く含まれています。

ブラウザサンドボックスと、状態検証可能な評価。

ブラウザベースのサンドボックス

主要な設計目標は、エージェントの意思決定の品質と推論速度を分離することです。リアルタイムゲームでは、推論速度が遅いモデルは、行動を起こすまでにゲームの状態が大きく変化しており、思考時間とゲームプレイの能力が混同されてしまいます。GameWorldのサンドボックスは、エージェントの各ステップの間にゲームの実行を一時停止し、各モデルが同じゲームの状態に基づいて評価されるようにします。これは、モデルの推論遅延に関わらずです。

各ゲームは、Playwrightというブラウザの隔離されたインスタンス内で実行され、厳密な観察-行動のサイクルに従います。具体的には、スクリーンショットをキャプチャし、モデルに問い合わせ、1つのアクションを実行します。 準備完了のゲートは、評価を開始する前に、ゲームが完全にロードされ、安定した状態にあることを保証します。

ステート検証評価 (State-Verifiable Evaluation)

ヒューリスティックなスコアリングやLLMを評価者として利用するベンチマークとは異なり、GameWorldは、ゲームの実際の内部状態を検査することでエージェントを評価します。各ゲームは、スコア、レベルの進行状況、プレイヤーの位置、およびタスク固有のメトリックを含む構造化されたJSON状態を公開します。タスクの成功は、この状態に対してプログラム的に検証されます。主観的な判断は不要です。

Game State JSON Structure — **図10:** スーパーマリオのゲーム状態のJSONの例。スコア、レベル、プレイヤーの状態、およびプログラムによる検証を可能にするメトリックなど、構造化されたフィールドを示しています。

実験と結果

GameWorldは、CUAインターフェースと汎用インターフェースの両方において、13種類の基本モデルを評価し、その結果、18種類のモデル-エージェント-インターフェースの組み合わせが得られました。評価対象のモデルには、独自のシステム（Claude-Sonnet-4.6, Gemini-3-Flash-Preview, GPT-5.2, Grok-4.1）と、オープンソースモデル（Qwen3-VL-235B, Qwen3-VL-30B, UI-TARS-1.5）が含まれます。すべてのモデルは同じ一時停止プロトコル下で評価されており、スコアは応答速度ではなく、意思決定の質を反映しています。

Main Results Heatmap — **図4:** 34種類のゲームと、複数のモデル・インターフェースの組み合わせにおけるパフォーマンスのヒートマップ。緑色は進捗が高いことを示し、赤色は進捗が低いことを示します。最上位のパフォーマンスを示すモデルでも、特定のゲームタイプにおいて顕著な弱点が見られます。

トップパフォーマー

1st

Claude-Sonnet-4.6 (GEN)

38.0%

総合的な進歩が最も優れています。ArcadeとRunnerというジャンルにおいて、優れたパフォーマンスを発揮しています。

2nd

Gemini-3-Flash-Preview (GEN)

36.2%

次点。特に、戦略的な思考を必要とするパズルゲームにおいて、高いパフォーマンスを発揮します。

3rd

GPT-5.2 (GEN)

30.1%

堅実な3位。安定したパフォーマンスだが、リアルタイムゲームでは課題が見られる。

Main Leaderboard Results — **表5：** すべての18のモデル-インターフェースの組み合わせについて、5つのジャンルにおける成功率 (Success Rate, SR) と進捗状況 (Progress, PG) を示した完全なランキング表。

ベンチマークの堅牢性

GameWorldが、単発的な結果ではなく、再現可能な測定プラットフォームとして機能するかどうかを検証するため、Qwen3-VL-30BとQwen3-VL-235Bの両方について、CUAモードとGeneralistモードの両方で、繰り返しフルベンチマーク評価を実施しました。

Benchmark Robustness - Repeated Evaluation — **図5：** 全34のゲームにおける、2回の独立したフルベンチマーク実行の進捗状況（%）。青とオレンジのバーが非常に近い位置にあることは、実行間の高い再現性を示しています。

全体的な進捗の標準偏差は、すべての4つの設定において低い一桁の範囲内にあり、成功率の変動も同様に小さい範囲に留まっています。これは、GameWorldが安定した、再現可能な測定値を提供し、信頼性の高いモデル比較に適していることを確認するものです。

能力に合わせたカリキュラム

単にジャンル全体の平均値だけでは、失敗の原因が、制御の基礎の弱さ、反応の遅さ、ナビゲーションの悪さ、または推論能力の限界によるものなのかを明らかにすることはできません。GameWorldは、より的確な診断を可能にするために、170のタスクを5つのレベルの能力カリキュラムに分類しています。

Capability-Aligned Curriculum Radar Charts — **図6：** 一般的なインターフェース（左）とCUA（右）のインターフェースについて、5つの能力レベルにおけるモデルの性能を比較したレーダーチャート。

L1

基本的な制御とタイミングの基礎 - シンプルな入力-出力のマッピング。エージェントは、正しいボタンを正しいタイミングで押すことができるか？

L2

System-1 反応制御 — 即座の刺激に対する、熟慮を伴わない、迅速かつ反射的な反応。

L3

System-2 Navigation - 意図的な空間認識と、複雑な環境を通じた経路探索。

L4

Reasoning & Strategy — 複数の段階にわたる計画、資源管理、および戦略的な意思決定。

L5

長期的な視点と連携 — 複数の段階にわたる複雑な計画を立て、目標の進捗状況を追跡すること。

課題と分析

リアルタイムインタラクション (GameWorld-RT)

デフォルトの停止状態の評価から、リアルタイムでの連続実行に切り替えると、ほとんどのモデルでパフォーマンスが大幅に低下します。 より小さい30Bモデルの方が大幅に高速ですが、235Bモデルはわずかに高い進捗を達成します。成功率は全体的に非常に低く、これは、より高速な推論だけではリアルタイムの課題を解決できないことを示しています。これは、現在のMLLMの推論遅延が、時間的に制約のあるゲームのインタラクションと互換性がないという根本的な制限を明らかにするものです。

コンテキスト・メモリ感度

コンテキストメモリの増加（最近の操作履歴やスクリーンショットの保持）は、プロンプトの長さとレイテンシの両方を大幅に増加させますが、パフォーマンスへの影響はインターフェースによって異なります。汎用エージェントは、意味的な操作履歴が有用なタスクコンテキストを保持するため、メモリの恩恵を受けやすい。一方、CUAエージェントは、生のピクセルレベルの操作ログがテキストとして再現されると、情報量が少ないため、結果は様々です。

行動の妥当性と指示の遵守.

エージェントは自由に動作することができません。各ステップにおいて、アクション空間のルールに従わなければなりません。無効なアクションは、以下の2つのカテゴリに分類されます。No-Tool-Call（モデルが実行可能なアクションを一切出力しない状態。多くの場合、切り捨てが原因）。Malformed-Call（アクションの形式が正しくない、または存在しない関数を使用している状態）。低い無効アクション率（IAR）は、指示に従う能力の直接的な指標となります。

故障モード

モデル間で発生するタスクの失敗を分析した結果、主要な失敗カテゴリが4つに分類されました。

**認識の失敗:** エージェントが視覚的な状態（オブジェクト、UIのヒント、空間構成）を誤って解釈し、誤った判断を下すことがあります。これは、モデルの推論において、画面上の要素を誤って記述している場合に特に顕著に見られます。
詳細なアクションの失敗： 高レベルの意図は正しいものの、実行がタイミングがずれている、または不正確である—ジャンプのタイミングがずれる、キーコンビネーションの持続時間が間違っている。エージェントはどのような行動を取るべきか理解しているが、それを正確に実行できない。
指示に従うことの失敗： エージェントが、宣言された制限やタスクの制約に違反するアクションを提案する。より長いインタラクションの過程において、モデルは指示からますます逸脱する傾向がある。
長期的な記憶の失敗： エージェントが重要な過去の文脈を失ったり、効果のない反復を繰り返したり、複数のステップからなる計画を実行できなかったりする。これは、特に性能の低いモデルで、同じ効果のない行動を繰り返す場合に多く見られます。

事例研究

CUA vs. Generalist: Super Mario Bros.

この事例研究では、同じモデルファミリーを使用して、CUAインターフェースとGeneralistインターフェースにおけるMarioの動作軌跡を比較しています。CUAは、ローレベルのキーボードおよびマウス操作を生成するのに対し、Generalistは、意味的なアクション関数を使用します。この比較から、同じスコア獲得という目的を追求する際でも、インターフェースの選択が、アクション選択の戦略に根本的に影響を与えることがわかります。

CUA vs Generalist Agent - Mario — **図7:** CUAエージェントと汎用エージェントの軌跡を、Super Mario Bros. でのプレイにおいて段階的に比較し、異なるインターフェースがどのように異なる戦略につながるかを示しています。

長期的な計画: Minecraft

このオープンエンド型のMinecraftにおける資源収集タスクにおいて、エージェントは繰り返し、目標の数値を向けて採掘を行います。試行は90%の進捗に達するものの、完了には至らず、これは指示に従っていないのではなく、タスクの完了に至っていない（missing closure）状態です。エージェントは、ほぼ完了した状態から実際の成功までの一歩を乗り越えることができず、これは長期的なタスクにおいてよく見られる課題です。

Minecraft Long-Horizon Simulation — **図8:** Minecraftにおけるリソース収集の様子を示しており、6つの段階に分けて長期的な計画を立てる様子が描かれています。これは、3次元環境における持続的な目標達成の難しさを表現しています。

リアルタイム・リアクション：Flappy Bird

連続するフレームはほとんど同じように見えますが、正しい動作は「待機」と「羽ばたく」が交互に繰り返されます。わずかに早い、または遅い羽ばたきが、視覚的に似た状態からどれだけの進歩が得られるかを決定します。これは、非常に重要なリアルタイム制御の難しさを示しており、完璧な認識だけでは、正確なタイミングがなければ十分ではありません。

Flappy Bird Real-Time Control — **図9:** Flappy Birdのリアルタイム制御画面。タップと待ち時間のわずかなタイミングの違いが、成功と失敗を決定する様子を示しています。

結論

現在のマルチモーダルゲームエージェントは、しばしば部分的な進捗を達成できますが、それでも、多様なブラウザゲームにおいて、その進捗を信頼性の高いタスク完了に結び付けるのに苦労しています。平均約38%の進捗を達成することと、一貫した成功を達成することの間のギャップは、知覚、タイミング、そして長期的な計画における根本的な制限を明らかにするものです。

GameWorld は、これらの機能を評価するための標準化された、検証可能なベンチマークを提供します。 34のゲーム、170のタスク、および18のモデル・インターフェースの組み合わせにおいて、結果は、最高のパフォーマンスを示すエージェントであっても、人間のレベルのゲームプレイには程遠いことを示しています。一方で、このベンチマーク自体は、堅牢で再現性が高く、将来の進捗を確実に測定することができます。

今後の展望として、ゲームの多様性を拡大し、マルチプレイヤーのシナリオを追加すること、そして、リアルタイムの制約や長期的な計画に対応できる、より高度なエージェントアーキテクチャを開発することが、マルチモーダルゲームエージェントを進歩させるための重要な方向性となります。

参考文献

[1] Bakhtin et al. Human-level play in the game of Diplomacy by combining language models with strategic reasoning. Science, 2022.
[2] Brohan et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. CoRL, 2023.
[3] Brown et al. Language Models are Few-Shot Learners. NeurIPS, 2020.
[4] Chen et al. Fireact: Toward language agent fine-tuning. 2023.
[5] Claude-Sonnet-4.6. Anthropic, 2026.
[6] Driess et al. PaLM-E: An Embodied Multimodal Language Model. ICML, 2023.
[7] Du et al. Guiding pretraining in reinforcement learning with large language models. ICML, 2023.
[8] Bai et al. Qwen3 Technical Report. arXiv, 2025.

GameWorld

要約