多様性を持つゲームエージェントの、標準化された検証可能な評価に向けて
1National University of Singapore 2University of Oxford
真に高度なAIエージェントを構築し、現実世界とインタラクションさせるためには、視覚認識、戦略的計画、正確なタイミング、そして長期的な持続的な行動を習得する必要があります。GameWorldは、これらの能力をテストするための理想的なプラットフォームであるビデオゲームを提供しますが、その評価は、一貫性のないアクションインターフェースと信頼性の低い検証方法によって制約されてきました。 GameWorldは、これらの問題を解決するために設計された新しいベンチマークです。これは、ゲームエージェントとしてマルチモーダル大規模言語モデル(MLLMs)を評価するための、標準化されたブラウザベースの環境を提供します。調査対象となるエージェントインターフェースは、2種類あります。Computer-Use Agentsは、キーボードとマウスを直接制御し、Generalist Agentsは、意味的なアクション関数を通じて動作します。34種類の多様なゲームと170のタスクにおいて、18種類のモデルとインターフェースの組み合わせによる結果から、最も優れた性能を示すエージェントであっても、人間のゲームプレイ能力に遠く及ばないことが明らかになりました。
5つのジャンル(アーケード、プラットフォーマー、パズル、ランナー、シミュレーション)にまたがる34種類のブラウザゲームがあり、合計170のタスクが含まれています。このシステムは、共有された、実行可能なアクション空間を通じて、コンピュータ利用エージェントと汎用エージェントの両方をサポートしており、これは決定論的なSemantic Action Parsingによって実現されています。
プログラムがエージェントのパフォーマンスをプログラム的に評価する、汎用的な結果ベースの評価ツールです。これは、ゲームの状態の検査を通じて行われます。 従来のベンチマークがヒューリスティックやLLMを評価者として使用するのとは異なり、GameWorldはゲームの内部状態から実際の成果を検証します。
広範な実験を行い、ベンチマークの堅牢性を、繰り返し行うフルベンチマークの再実行によって評価しました。さらに、リアルタイムインタラクション、コンテキスト・メモリへの感度、アクションの妥当性に関する詳細な研究、および詳細な故障モード分析を行いました。
GameWorldでは、ゲームエージェントを制御するための2つの異なるアプローチを研究しています。各ステップにおいて、エージェントは現在のゲームの状態のスクリーンショットを観察し、モデルを通じてアクションを生成し、そのアクションが環境によって実行されます。その後、検証可能な評価器が、結果の状態をタスクの目標と比較します。
低レベルのキーボードおよびマウス操作を直接実行し、まるで人間がコンピュータを操作しているかのように動作します。このモデルは、ゲームの理解に基づいて、正確な物理的な入力を生成する必要があります。
セマンティックな、ゲーム固有の関数呼び出し(例:`move_forward()`, `action_jump()`)を使用します。アクションは、セマンティック・アクション・パーシングによって、決定論的に低レベルのコントロールに変換されます。
move_right()`、`weapon_fire()`ゲームにおけるエージェントの評価は、既存のベンチマークでは十分に解決されていない課題を提起します。 ほとんどのベンチマークは、限られたジャンルのゲームにしか対応しておらず、リアルタイムゲームでは、エージェントの性能が推論速度と密接に結びついています。 GameWorldは、以下の4つの設計原則を通じて、これらの課題に対処します。
標準化されたアクションインターフェースは、セマンティックアクション解析によって、セマンティック関数を決定論的に低レベルの制御にマッピングします。
ブラウザベースのサンドボックス。一時停止・ステップ実行機能を備えており、推論の遅延をゲームプレイのタイミングから分離します。
多様なゲームコンテンツ:5つのジャンルにわたり、34種類のゲームと170のタスクを通じて、様々な能力を試すことができます。
State-Verifiable Evaluation:プログラムによるゲーム状態の検査を利用した、成果に基づいた評価。
GameWorldは、5つのジャンル:Runner、Arcade、Platformer、Puzzle、およびSimulationにまたがる、34種類のブラウザベースのゲームで構成されています。 各ジャンルは、迅速な反射能力や空間認識能力から、長期的な計画能力や資源管理能力まで、異なるエージェントの能力を試します。 各タスクは、自然言語による指示、定量的な目標、および検証可能な評価者で構成されます。
主要な設計目標は、エージェントの意思決定の品質と推論速度を分離することです。リアルタイムゲームでは、推論速度が遅いモデルは、行動を起こすまでにゲームの状態が大きく変化しており、思考時間とゲームプレイの能力が混同されてしまいます。GameWorldのサンドボックスは、エージェントの各ステップの間にゲームの実行を一時停止し、各モデルが同じゲームの状態に基づいて評価されるようにします。これは、モデルの推論遅延に関わらずです。
各ゲームは、Playwrightというブラウザの隔離されたインスタンス内で実行され、厳密な観察-行動のサイクルに従います。具体的には、スクリーンショットをキャプチャし、モデルに問い合わせ、1つのアクションを実行します。 準備完了のゲートは、評価を開始する前に、ゲームが完全にロードされ、安定した状態にあることを保証します。
ヒューリスティックなスコアリングやLLMを評価者として利用するベンチマークとは異なり、GameWorldは、ゲームの実際の内部状態を検査することでエージェントを評価します。各ゲームは、スコア、レベルの進行状況、プレイヤーの位置、およびタスク固有のメトリックを含む構造化されたJSON状態を公開します。タスクの成功は、この状態に対してプログラム的に検証されます。主観的な判断は不要です。
GameWorldは、CUAインターフェースと汎用インターフェースの両方において、13種類の基本モデルを評価し、その結果、18種類のモデル-エージェント-インターフェースの組み合わせが得られました。評価対象のモデルには、独自のシステム(Claude-Sonnet-4.6, Gemini-3-Flash-Preview, GPT-5.2, Grok-4.1)と、オープンソースモデル(Qwen3-VL-235B, Qwen3-VL-30B, UI-TARS-1.5)が含まれます。すべてのモデルは同じ一時停止プロトコル下で評価されており、スコアは応答速度ではなく、意思決定の質を反映しています。
総合的な進歩が最も優れています。ArcadeとRunnerというジャンルにおいて、優れたパフォーマンスを発揮しています。
次点。特に、戦略的な思考を必要とするパズルゲームにおいて、高いパフォーマンスを発揮します。
堅実な3位。安定したパフォーマンスだが、リアルタイムゲームでは課題が見られる。
GameWorldが、単発的な結果ではなく、再現可能な測定プラットフォームとして機能するかどうかを検証するため、Qwen3-VL-30BとQwen3-VL-235Bの両方について、CUAモードとGeneralistモードの両方で、繰り返しフルベンチマーク評価を実施しました。
全体的な進捗の標準偏差は、すべての4つの設定において低い一桁の範囲内にあり、成功率の変動も同様に小さい範囲に留まっています。これは、GameWorldが安定した、再現可能な測定値を提供し、信頼性の高いモデル比較に適していることを確認するものです。
単にジャンル全体の平均値だけでは、失敗の原因が、制御の基礎の弱さ、反応の遅さ、ナビゲーションの悪さ、または推論能力の限界によるものなのかを明らかにすることはできません。GameWorldは、より的確な診断を可能にするために、170のタスクを5つのレベルの能力カリキュラムに分類しています。
基本的な制御とタイミングの基礎 - シンプルな入力-出力のマッピング。エージェントは、正しいボタンを正しいタイミングで押すことができるか?
System-1 反応制御 — 即座の刺激に対する、熟慮を伴わない、迅速かつ反射的な反応。
System-2 Navigation - 意図的な空間認識と、複雑な環境を通じた経路探索。
Reasoning & Strategy — 複数の段階にわたる計画、資源管理、および戦略的な意思決定。
長期的な視点と連携 — 複数の段階にわたる複雑な計画を立て、目標の進捗状況を追跡すること。
デフォルトの停止状態の評価から、リアルタイムでの連続実行に切り替えると、ほとんどのモデルでパフォーマンスが大幅に低下します。 より小さい30Bモデルの方が大幅に高速ですが、235Bモデルはわずかに高い進捗を達成します。成功率は全体的に非常に低く、これは、より高速な推論だけではリアルタイムの課題を解決できないことを示しています。これは、現在のMLLMの推論遅延が、時間的に制約のあるゲームのインタラクションと互換性がないという根本的な制限を明らかにするものです。
コンテキストメモリの増加(最近の操作履歴やスクリーンショットの保持)は、プロンプトの長さとレイテンシの両方を大幅に増加させますが、パフォーマンスへの影響はインターフェースによって異なります。汎用エージェントは、意味的な操作履歴が有用なタスクコンテキストを保持するため、メモリの恩恵を受けやすい。一方、CUAエージェントは、生のピクセルレベルの操作ログがテキストとして再現されると、情報量が少ないため、結果は様々です。
エージェントは自由に動作することができません。各ステップにおいて、アクション空間のルールに従わなければなりません。無効なアクションは、以下の2つのカテゴリに分類されます。No-Tool-Call(モデルが実行可能なアクションを一切出力しない状態。多くの場合、切り捨てが原因)。Malformed-Call(アクションの形式が正しくない、または存在しない関数を使用している状態)。低い無効アクション率(IAR)は、指示に従う能力の直接的な指標となります。
モデル間で発生するタスクの失敗を分析した結果、主要な失敗カテゴリが4つに分類されました。
この事例研究では、同じモデルファミリーを使用して、CUAインターフェースとGeneralistインターフェースにおけるMarioの動作軌跡を比較しています。CUAは、ローレベルのキーボードおよびマウス操作を生成するのに対し、Generalistは、意味的なアクション関数を使用します。この比較から、同じスコア獲得という目的を追求する際でも、インターフェースの選択が、アクション選択の戦略に根本的に影響を与えることがわかります。
このオープンエンド型のMinecraftにおける資源収集タスクにおいて、エージェントは繰り返し、目標の数値を向けて採掘を行います。試行は90%の進捗に達するものの、完了には至らず、これは指示に従っていないのではなく、タスクの完了に至っていない(missing closure)状態です。エージェントは、ほぼ完了した状態から実際の成功までの一歩を乗り越えることができず、これは長期的なタスクにおいてよく見られる課題です。
連続するフレームはほとんど同じように見えますが、正しい動作は「待機」と「羽ばたく」が交互に繰り返されます。わずかに早い、または遅い羽ばたきが、視覚的に似た状態からどれだけの進歩が得られるかを決定します。これは、非常に重要なリアルタイム制御の難しさを示しており、完璧な認識だけでは、正確なタイミングがなければ十分ではありません。
現在のマルチモーダルゲームエージェントは、しばしば部分的な進捗を達成できますが、それでも、多様なブラウザゲームにおいて、その進捗を信頼性の高いタスク完了に結び付けるのに苦労しています。平均約38%の進捗を達成することと、一貫した成功を達成することの間のギャップは、知覚、タイミング、そして長期的な計画における根本的な制限を明らかにするものです。
GameWorld は、これらの機能を評価するための標準化された、検証可能なベンチマークを提供します。 34のゲーム、170のタスク、および18のモデル・インターフェースの組み合わせにおいて、結果は、最高のパフォーマンスを示すエージェントであっても、人間のレベルのゲームプレイには程遠いことを示しています。一方で、このベンチマーク自体は、堅牢で再現性が高く、将来の進捗を確実に測定することができます。
今後の展望として、ゲームの多様性を拡大し、マルチプレイヤーのシナリオを追加すること、そして、リアルタイムの制約や長期的な計画に対応できる、より高度なエージェントアーキテクチャを開発することが、マルチモーダルゲームエージェントを進歩させるための重要な方向性となります。