Claw-Eval: 自律型エージェントの信頼性評価に向けて

課題：なぜ現在のベンチマークは不十分なのか

大規模言語モデルは、会話型アシスタントから、現実世界のソフトウェア環境で複雑な多段階ワークフローを実行可能な自律エージェントへと急速に進化しました。Claude CodeやOpenClawなどの最新のエージェントハーネスは、コードの記述、ファイル管理、Webブラウジング、マルチサービスのオーケストレーションを、最小限の人間の介入で実行できます。

しかし、既存のベンチマークには、診断力を制限する3つの重大なギャップがあります。

Gap 1

軌跡不透明な評価：多くのベンチマークは最終出力のみを検査し、エージェントがそこに至るまでの過程を無視しています。安全でない中間ステップを経ながらも正しい最終結果を出すエージェントが、合格と判定されてしまいます。

Gap 2

不十分な安全性評価：安全性と堅牢性は、実世界のタスク完了の不可欠な次元としてではなく、狭く孤立した設定でのみテストされています。

Gap 3

狭いモダリティ対応：多くのスイートは単一のモダリティ（テキストのみのツール使用、またはGUIインタラクション）に焦点を当て、エージェントが実際に直面するマルチモーダル・マルチターンのシナリオを無視しています。

Claw-Evalは、3つの対応する設計原則に基づき、統合プラットフォーム内でこれら3つのギャップすべてに対処します。

表1: ベンチマーク比較 — **表1：**既存のエージェントベンチマークの機能比較。Claw-Evalは、軌跡監査、マルチモーダルタスク、安全性、堅牢性、マルチターン対話、クロスモーダル対応の6つの評価軸すべてをサポートする唯一のスイートです。

Claw-Evalの仕組み

図1: Claw-Evalアーキテクチャ — **図1：**Claw-Evalのアーキテクチャ。セットアップフェーズでは、タスク定義とワークスペースファイルがサンドボックスにプロビジョニングされます。実行フェーズでは、エージェントのアクションが3つの独立したエビデンスチャネルを通じて記録されます。評価フェーズでは、すべてのエビデンスが多次元スコアリングのために統合されます。

🔍

監査可能な実行パイプライン

すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録されます。実行トレース（ツール呼び出しとその結果の完全なシーケンス）、監査ログ（ファイル変更、ネットワークリクエスト、プロセス生成のシステムレベル記録）、環境スナップショット（サンドボックス状態の定期キャプチャ）です。これにより、2,159の細粒度ルーブリック項目に基づく軌跡対応型評価が可能になります。

📊

クロスモーダルタスクスイート

3つのグループにまたがる9カテゴリの300の人間検証済みタスク：一般的なサービスオーケストレーション（Easy/Medium/Hard）、マルチモーダル知覚・生成（Video/Document & Image/Code）、マルチターン専門対話（STEM/Social Science/Business）。各タスクにはワークスペースファイル、モックサービス、詳細なルーブリックが付属します。

✅

スコアリングプロトコル

スコアリングプロトコルは3つの直交する次元を評価します。Completion（エージェントはタスクを完了したか）、Safety（有害なアクションを回避したか）、Robustness（エッジケースを適切に処理したか）。結果はAverage Score、Pass@k（k回中最良）、Pass^k（k回中最悪）として報告され、真の能力と偶然の成功を区別します。

表3: タスク分布 — **表3：**カテゴリと難易度レベル別の300タスクの分布。

深掘り分析：4つの重要な知見

軌跡不透明な評価者は安全性違反の44%を見逃す

標準的なLLM評価者（Gemini-3-Flash）に完全な会話履歴と最終出力を提供し、実行トレースを提供しなかった場合、安全性違反の44%（27件中12件）と堅牢性の失敗の13%（118件中15件）を見逃しました。実行トレース、監査ログ、環境スナップショットを組み込んだハイブリッド評価パイプラインは、すべてを検出しました。

この発見が衝撃的なのは、バニラ評価者が最終結果だけでなく会話履歴にもアクセスしていたためです。問題は、多くの安全性違反が会話トランスクリプトでは見えない中間ツール呼び出しで発生することにあります。

図3a: 安全性違反 — **図3a：**安全性違反の検出。ハイブリッドパイプラインは全27件を検出したのに対し、バニラ評価者は12件（44%）を見逃した。

図3b: 堅牢性違反 — **図3b：**堅牢性違反の検出。118件中15件（13%）がバニラ評価者に見逃された。

エラー注入は一貫性を低下させるが、ピーク能力は維持される

ツール呼び出しが断続的に失敗する場合（実世界のAPIの不安定性をシミュレーション）、興味深いパターンが浮かび上がります。Pass@3は比較的安定している一方で、Pass³は劇的に低下します。エラー注入率60%では、Gemini 3.1 ProのPass@3とPass³の差は42%に達しました。

これは、モデルが最良の試行ではタスクを解決できるものの、一貫して解決することに苦戦していることを意味します。Claude Opus 4.6は最高のエラー率でも最小のギャップ（21%）を示し、最高の回復力を発揮しました。これは、ピーク能力だけでなく一貫性が主要な評価基準であるべきことを強調しています。

図4a: エラー注入時のパス率 — **図4a：**Pass@3（実線）は安定を維持する一方、Pass³（破線）はエラー注入率の増加に伴い低下。

図4b: ギャップの拡大 — **図4b：**エラー率の増加に伴いPass@3とPass³のギャップが拡大し、一貫性の低下が明らかに。

質問の「数」ではなく「質」がパフォーマンスを向上させる

マルチターン専門対話タスクでは、モデルはシミュレートされたユーザーから重要な情報を明確化質問によって引き出す必要があります。驚くべき発見として、質問数とパフォーマンスにはほぼ相関がない（r = 0.07）ことが判明しました。

対照的に、質問精度（質問がどれだけ的を絞り、軌跡に関連しているかを測定）は非常に強い相関（r = 0.87、R² = 0.76）を示しました。最高のパフォーマンスを示すモデルは、より少ないがより精度の高い質問を行い、必要な情報に効率的にたどり着いています。

図5a: ラウンド数 vs Pass^3 — **図5a：**平均対話ラウンド数とPass³の関係。質問量とパフォーマンスに相関なし（r = 0.07）。

図5b: 精度 vs Pass^3 — **図5b：**質問精度とPass³の関係。量よりも質がはるかに重要であることを示す非常に強い相関（r = 0.87）。

マルチモーダル能力はドメイン固有である

Video、Document & Image、Codeの3ドメインにまたがる101のマルチモーダルタスクでは、単一のモデルが支配的ではないことが判明。Claude Opus 4.6がVideo（Pass³ 11.5%）、GPT 5.4がDocument & Image（54.5%）、Claude Sonnet 4.6がCode（33.3%）でそれぞれトップです。

Videoタスクが最も困難で、変換率はわずか0.37（最良の試行で解けるタスクのうち一貫して解けるのは37%のみ）です。これは、一律のスケーリングではなく、ドメイン特化型のトレーニングがマルチモーダルエージェント能力の向上に必要であることを示唆しています。

表6: ドメイン別結果 — **表6：**モデルおよびマルチモーダルドメイン別のPass³。各ドメインで異なるモデルがトップ。

図6: ドメイン比較 — **図6：**マルチモーダルドメイン全体のPass@3とPass³の集計。Video（r = 0.37）が最も困難、Document & Image（r = 0.53）が最も高い一貫性。

参考文献（49件）

[1] Z. AI. Glm-5v-turbo. https://docs.z.ai/guides/vlm/glm-5v-turbo, 2026.
[2] Anthropic. Claude code. https://www.anthropic.com/product/claude-code, 2025.
[3] Anthropic. Introducing claude opus 4.6. https://www.anthropic.com/news/ claude-opus-4-6, 2026.
[4] Anthropic. Introducing claude sonnet 4.6. https://www.anthropic.com/news/ claude-sonnet-4-6, 2026.
[5] A. Blakeman, A. Grattafiori, A. Basant, A. Gupta, A. Khattar, A. Renduchintala, A. Vavre, A. Shukla, A. Bercovich, A. Ficek, et al. Nvidia nemotron 3: Efficient and open intelligence. arXiv preprint arXiv:2512.20856, 2025.
[6] G. DeepMind. Gemini 3 flash. https://deepmind.google/models/gemini/flash/, 2025.
[7] G. DeepMind. Gemini 3.1 pro. https://deepmind.google/models/gemini/pro/, 2026.
[8] S. Ding, X. Dai, L. Xing, S. Ding, Z. Liu, J. Yang, P. Yang, Z. Zhang, X. Wei, Y. Ma, H. Duan, J. Shao, J. Wang, D. Lin, K. Chen, and Y. Zang. Wildclawbench. https://github.com/InternLM/WildClawBench, 2026. GitHub repository.
[9] C. E. Jimenez, J. Yang, A. Wettig, S. Yao, K. Pei, O. Press, and K. R. Narasimhan. SWE- bench: Can language models resolve real-world github issues? In The Twelfth International Conference on Learning Representations, 2024. URL https://openreview.net/forum? id=VTF8yNQM66.
[10] Kilo AI team. Pinchbench, 2026. URL https://github.com/pinchbench/skill. Bench- marking system for evaluating LLM models as OpenClaw agents.
[11] J. Y. Koh, R. Lo, L. Jang, V. Duvvur, M. Lim, P .- Y. Huang, G. Neubig, S. Zhou, R. Salakhutdinov, and D. Fried. Visualwebarena: Evaluating multimodal agents on realistic visual web tasks. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 881-905, 2024.
[12] J. Li, W. Zhao, J. Zhao, W. Zeng, H. Wu, X. Wang, R. Ge, Y. Cao, Y. Huang, W. Liu, et al. The tool decathlon: Benchmarking language agents for diverse, realistic, and long-horizon task execution. arXiv preprint arXiv:2510.25726, 2025.
[13] M. Li, Y. Zhao, B. Yu, F. Song, H. Li, H. Yu, Z. Li, F. Huang, and Y. Li. Api-bank: A comprehensive benchmark for tool-augmented llms. In Proceedings of the 2023 conference on empirical methods in natural language processing, pages 3102-3116, 2023.
[14] R. Li, L. Li, S. Ren, H. Tian, S. Gu, S. Li, Z. Yue, Y. Wang, W. Ma, Z. Yang, et al. Groundingme: Exposing the visual grounding gap in mllms through multi-dimensional evaluation. arXiv preprint arXiv:2512.17495, 2025.
[15] A. Liu, B. Feng, B. Xue, B. Wang, B. Wu, C. Lu, C. Zhao, C. Deng, C. Zhang, C. Ruan, et al. Deepseek-v3 technical report. arXiv preprint arXiv:2412.19437, 2024.
[16] X. Liu, H. Yu, H. Zhang, Y. Xu, X. Lei, H. Lai, Y. Gu, H. Ding, K. Men, K. Yang, et al. Agentbench: Evaluating Ilms as agents. In The Twelfth International Conference on Learning Representations.
[17] M. MacDiarmid, B. Wright, J. Uesato, J. Benton, J. Kutasov, S. Price, N. Bouscal, S. Bowman, T. Bricken, A. Cloud, et al. Natural emergent misalignment from reward hacking in production rl. arXiv preprint arXiv:2511.18397, 2025.
[18] M. A. Merrill, A. G. Shaw, N. Carlini, B. Li, H. Raj, I. Bercovich, L. Shi, J. Y. Shin, T. Walshe, E. K. Buchanan, et al. Terminal-bench: Benchmarking agents on hard, realistic tasks in command line interfaces. arXiv preprint arXiv:2601.11868, 2026.
[19] G. Mialon, C. Fourrier, T. Wolf, Y. LeCun, and T. Scialom. Gaia: a benchmark for general ai assistants. In The Twelfth International Conference on Learning Representations, 2023.
[20] X. MiMo. Xiaomi mimo-v2-omni. https://mimo.xiaomi.com/mimo-v2-omni, 2026.
[21] X. MiMo. Xiaomi mimo-v2-pro. https://mimo.xiaomi.com/mimo-v2-pro, 2026.
[22] MiniMax. Minimax m2.7. https://www.minimax.io/models/text/m27, 2026.
[23] OpenAI. Introducing gpt-5.4. https://openai.com/index/introducing-gpt-5-4, 2026.
[24] OpenClaw. Openclaw. https://github.com/openclaw/openclaw, 2026. GitHub repository.
[25] L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, J. Schulman, J. Hilton, F. Kelton, L. Miller, M. Simens, A. Askell, P. Welinder, P. F. Christiano, J. Leike, and R. Lowe. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022, 2022.
[26] B. Qiao, L. Li, X. Zhang, S. He, Y. Kang, C. Zhang, F. Yang, H. Dong, J. Zhang, L. Wang, et al. Taskweaver: A code-first agent framework. arXiv preprint arXiv:2311.17541, 2023.
[27] Y. Ruan, H. Dong, A. Wang, S. Pitis, Y. Zhou, J. Ba, Y. Dubois, C. J. Maddison, and T. Hashimoto. Identifying the risks of Im agents with an Im-emulated sandbox. arXiv preprint arXiv:2309.15817, 2023.
[28] T. Schick, J. Dwivedi-Yu, R. Dessì, R. Raileanu, M. Lomeli, E. Hambro, L. Zettlemoyer, N. Cancedda, and T. Scialom. Toolformer: Language models can teach themselves to use tools. Advances in neural information processing systems, 36:68539-68551, 2023.
[29] Y. Shen, K. Song, X. Tan, D. Li, W. Lu, and Y. Zhuang. Hugginggpt: Solving ai tasks with chatgpt and its friends in hugging face. Advances in Neural Information Processing Systems, 36:38154-38180, 2023.
[30] Q. Sun, M. Li, Z. Liu, Z. Xie, F. Xu, Z. Yin, K. Cheng, Z. Li, Z. Ding, Q. Liu, et al. Os-sentinel: Towards safety-enhanced mobile gui agents via hybrid validation in realistic workflows. arXiv preprint arXiv:2510.24411, 2025.
[31] E. B. Sydney Von Arx, Lawrence Chan. Recent frontier models are reward hacking. https: //metr.org/blog/2025-06-05-recent-reward-hacking/, 06 2025.
[32] K. Team, T. Bai, Y. Bai, Y. Bao, S. Cai, Y. Cao, Y. Charles, H. Che, C. Chen, G. Chen, et al. Kimi k2. 5: Visual agentic intelligence. arXiv preprint arXiv:2602.02276, 2026.
[33] X. Wang, Z. Wang, J. Liu, Y. Chen, L. Yuan, H. Peng, and H. Ji. Mint: Evaluating llms in multi- turn interaction with tools and language feedback. In The Twelfth International Conference on Learning Representations.
[34] T. Xie, D. Zhang, J. Chen, X. Li, S. Zhao, R. Cao, T. J. Hua, Z. Cheng, D. Shin, F. Lei, et al. Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments. Advances in Neural Information Processing Systems, 37:52040-52094, 2024.
[35] T. Xie, M. Yuan, D. Zhang, X. Xiong, Z. Shen, Z. Zhou, X. Wang, Y. Chen, J. Deng, J. Chen, B. Wang, H. Wu, J. Chen, J. Wang, D. Lu, H. Hu, and T. Yu. Introducing osworld-verified. xlang.ai, Jul 2025. URL https://xlang.ai/blog/osworld-verified.
[36] T. Xiong, Y. Ge, M. Li, Z. Zhang, P. Kulkarni, K. Wang, Q. He, Z. Zhu, C. Liu, R. Chen, et al. Multi-crit: Benchmarking multimodal judges on pluralistic criteria-following. arXiv preprint arXiv:2511.21662, 2025.
[37] T. Xiong, X. Wang, D. Guo, Q. Ye, H. Fan, Q. Gu, H. Huang, and C. Li. Llava-critic: Learning to evaluate multimodal models. In Proceedings of the Computer Vision and Pattern Recognition Conference, pages 13618-13628, 2025.
[38] T. Xiong, S. Wang, G. Liu, Y. Dong, M. Li, H. Huang, J. Kautz, and Z. Yu. Phycritic: Multimodal critic models for physical ai. arXiv preprint arXiv:2602.11124, 2026.
[39] W. Xiong, Y. Song, X. Zhao, W. Wu, X. Wang, K. Wang, C. Li, W. Peng, and S. Li. Watch every step! llm agent learning via iterative step-level process refinement. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 1556-1572, 2024.
[40] W. Xiong, Y. Song, Q. Dong, B. Zhao, F. Song, X. Wang, and S. Li. Mpo: Boosting llm agents with meta plan optimization. arXiv preprint arXiv:2503.02682, 5(6):7, 2025.
[41] F. F. Xu, Y. Song, B. Li, Y. Tang, K. Jain, M. Bao, Z. Z. Wang, X. Zhou, Z. Guo, M. Cao, et al. Theagentcompany: Benchmarking llm agents on consequential real world tasks. In The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track.
[42] Q. Xu, F. Hong, B. Li, C. Hu, Z. Chen, and J. Zhang. On the tool manipulation capability of open-source large language models. arXiv preprint arXiv:2305.16504, 2023.
[43] A. Yang, A. Li, B. Yang, B. Zhang, B. Hui, B. Zheng, B. Yu, C. Gao, C. Huang, C. Lv, et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.
[44] S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. R. Narasimhan, and Y. Cao. React: Synergizing reasoning and acting in language models. In The eleventh international conference on learning representations, 2022.
[45] S. Yao, N. Shinn, P. Razavi, and K. Narasimhan. T-bench: A benchmark for tool-agent-user interaction in real-world domains, 2024. URL https://arxiv.org/abs/2406.12045.
[46] T. Yuan, Z. He, L. Dong, Y. Wang, R. Zhao, T. Xia, L. Xu, B. Zhou, F. Li, Z. Zhang, et al. R-judge: Benchmarking safety risk awareness for Ilm agents. In Findings of the Association for Computational Linguistics: EMNLP 2024, pages 1467-1490, 2024.
[47] A. Zeng, X. Lv, Z. Hou, Z. Du, Q. Zheng, B. Chen, D. Yin, C. Ge, C. Huang, C. Xie, et al. Glm-5: from vibe coding to agentic engineering. arXiv preprint arXiv:2602.15763, 2026.
[48] Z. Zhang, S. Cui, Y. Lu, J. Zhou, J. Yang, H. Wang, and M. Huang. Agent-safetybench: Evaluating the safety of Ilm agents. arXiv preprint arXiv:2412.14470, 2024.
[49] W. X. Zhao, K. Zhou, J. Li, T. Tang, X. Wang, Y. Hou, Y. Min, B. Zhang, J. Zhang, Z. Dong, et al. A survey of large language models. arXiv preprint arXiv:2303.18223, 1(2):1-124, 2023.