Research Paper
大規模言語モデルは、現実世界のソフトウェア環境で多段階ワークフローを実行する自律エージェントとして、ますます活用されています。しかし、既存のエージェントベンチマークには3つの重大な限界があります。(1) 最終出力のみを検査する軌跡不透明な評価、(2) 安全性・堅牢性評価の不十分さ、(3) モダリティとインタラクション形式の狭い対応範囲。Claw-Evalは、300の人間検証済みタスク、2,159の細粒度ルーブリック項目に基づく軌跡対応型評価、14の最先端モデルでの実験により、これら3つのギャップすべてに対処するエンドツーエンド評価スイートです。
の安全性違反が、軌跡不透明な評価手法では見逃される
制御されたエラー注入によるPass3の低下。一貫性のギャップが明らかに
の最先端モデルを、9カテゴリ300タスクで評価
大規模言語モデルは、会話型アシスタントから、現実世界のソフトウェア環境で複雑な多段階ワークフローを実行可能な自律エージェントへと急速に進化しました。Claude CodeやOpenClawなどの最新のエージェントハーネスは、コードの記述、ファイル管理、Webブラウジング、マルチサービスのオーケストレーションを、最小限の人間の介入で実行できます。
しかし、既存のベンチマークには、診断力を制限する3つの重大なギャップがあります。
軌跡不透明な評価:多くのベンチマークは最終出力のみを検査し、エージェントがそこに至るまでの過程を無視しています。安全でない中間ステップを経ながらも正しい最終結果を出すエージェントが、合格と判定されてしまいます。
不十分な安全性評価:安全性と堅牢性は、実世界のタスク完了の不可欠な次元としてではなく、狭く孤立した設定でのみテストされています。
狭いモダリティ対応:多くのスイートは単一のモダリティ(テキストのみのツール使用、またはGUIインタラクション)に焦点を当て、エージェントが実際に直面するマルチモーダル・マルチターンのシナリオを無視しています。
Claw-Evalは、3つの対応する設計原則に基づき、統合プラットフォーム内でこれら3つのギャップすべてに対処します。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録されます。実行トレース(ツール呼び出しとその結果の完全なシーケンス)、監査ログ(ファイル変更、ネットワークリクエスト、プロセス生成のシステムレベル記録)、環境スナップショット(サンドボックス状態の定期キャプチャ)です。これにより、2,159の細粒度ルーブリック項目に基づく軌跡対応型評価が可能になります。
3つのグループにまたがる9カテゴリの300の人間検証済みタスク:一般的なサービスオーケストレーション(Easy/Medium/Hard)、マルチモーダル知覚・生成(Video/Document & Image/Code)、マルチターン専門対話(STEM/Social Science/Business)。各タスクにはワークスペースファイル、モックサービス、詳細なルーブリックが付属します。
スコアリングプロトコルは3つの直交する次元を評価します。Completion(エージェントはタスクを完了したか)、Safety(有害なアクションを回避したか)、Robustness(エッジケースを適切に処理したか)。結果はAverage Score、Pass@k(k回中最良)、Passk(k回中最悪)として報告され、真の能力と偶然の成功を区別します。
7つのモデルファミリーにまたがる14の最先端モデルで実験を実施。各モデルはタスクごとに3回評価され、Pass@3(最良の3回中1回、ピーク能力を測定)とPass3(最悪の3回中1回、一貫性を測定)の両方が計算されました。
標準的なLLM評価者(Gemini-3-Flash)に完全な会話履歴と最終出力を提供し、実行トレースを提供しなかった場合、安全性違反の44%(27件中12件)と堅牢性の失敗の13%(118件中15件)を見逃しました。実行トレース、監査ログ、環境スナップショットを組み込んだハイブリッド評価パイプラインは、すべてを検出しました。
この発見が衝撃的なのは、バニラ評価者が最終結果だけでなく会話履歴にもアクセスしていたためです。問題は、多くの安全性違反が会話トランスクリプトでは見えない中間ツール呼び出しで発生することにあります。
ツール呼び出しが断続的に失敗する場合(実世界のAPIの不安定性をシミュレーション)、興味深いパターンが浮かび上がります。Pass@3は比較的安定している一方で、Pass3は劇的に低下します。エラー注入率60%では、Gemini 3.1 ProのPass@3とPass3の差は42%に達しました。
これは、モデルが最良の試行ではタスクを解決できるものの、一貫して解決することに苦戦していることを意味します。Claude Opus 4.6は最高のエラー率でも最小のギャップ(21%)を示し、最高の回復力を発揮しました。これは、ピーク能力だけでなく一貫性が主要な評価基準であるべきことを強調しています。
マルチターン専門対話タスクでは、モデルはシミュレートされたユーザーから重要な情報を明確化質問によって引き出す必要があります。驚くべき発見として、質問数とパフォーマンスにはほぼ相関がない(r = 0.07)ことが判明しました。
対照的に、質問精度(質問がどれだけ的を絞り、軌跡に関連しているかを測定)は非常に強い相関(r = 0.87、R² = 0.76)を示しました。最高のパフォーマンスを示すモデルは、より少ないがより精度の高い質問を行い、必要な情報に効率的にたどり着いています。
Video、Document & Image、Codeの3ドメインにまたがる101のマルチモーダルタスクでは、単一のモデルが支配的ではないことが判明。Claude Opus 4.6がVideo(Pass3 11.5%)、GPT 5.4がDocument & Image(54.5%)、Claude Sonnet 4.6がCode(33.3%)でそれぞれトップです。
Videoタスクが最も困難で、変換率はわずか0.37(最良の試行で解けるタスクのうち一貫して解けるのは37%のみ)です。これは、一律のスケーリングではなく、ドメイン特化型のトレーニングがマルチモーダルエージェント能力の向上に必要であることを示唆しています。
Claw-Evalには多様なタスクタイプが含まれています。以下は、エージェントが部屋のウォークスルー動画から間取り図を再構成するマルチモーダルタスクの例です。
Claw-Evalは、完全な軌跡監査、クロスモーダルタスク対応、制御された摂動メカニズムを組み合わせ、エージェントが能力を持つだけでなく、信頼性をもってデプロイ可能かを評価する透明な評価スイートです。
実験から、エージェント開発における4つの実践的方向性が明らかになりました。