---
arxiv_id: 2603.24440
title: "CUA-Suite: コンピュータ操作エージェントのための大規模人手アノテーション付きビデオデモンストレーション"
authors:
  - CUA-Suite Team
difficulty: Intermediate
tags:
  - Agent
  - Benchmark
published_at: 2026-03-24
flecto_url: https://flecto.zer0ai.dev/ja/papers/2603.24440/
lang: ja
---

Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Bechard, Spandana Gella, Sai Rajeswar

ServiceNow · University of Waterloo · Mila · Université de Montréal · McGill University · University of Oxford · National University of Singapore

## CUA-Suite エコシステム

- 約 10,000 件の人手によるタスクデモンストレーション

- 55 時間の連続 30fps スクリーン録画

- ミリ秒精度のキネマティックカーソル軌跡

- 多層推論アノテーション（観察、思考、行動、振り返り）

- OpenCUA および ScaleCUA とフォーマット互換

- 56K 枚のアノテーション付きスクリーンショット

- 360 万件の UI 要素アノテーション

- ピクセル精度の人手検証済みバウンディングボックス

- 要素の 50% に対する 8 つの意味カテゴリ

- グラウンディング用の 70 万件の instruction-tuning データセット

- 450 件の高品質タスクデモンストレーション

- Element Grounding: テキストから UI 要素を特定

- Layout Grounding: 機能的に関連するグループを識別

- Action Prediction: 次の正しい行動を予測

- エージェント失敗の多面的診断

## VideoCUA の比較優位性

既存の GUI 操作軌跡データセットには重大な制約があります: Mind2Web や AITW などの Web・モバイルデータセットは デスクトップカバレッジが欠如 しており、ScaleCUA や OpenCUA などのスクリーンショットベースのデータセットは最終クリック座標のみを記録するため 時間的動態を見逃し ています。また、合成データセットは自動生成に固有のノイズに悩まされます。VideoCUA は、連続 30fps ビデオ、デスクトップ特化、人手によるキュレーション、大規模な多層 Chain-of-Thought アノテーションを同時に提供する 唯一のデータセット であり、既存最大のオープンデータセットの 2.5 倍以上 の規模を誇ります。

表 2: VideoCUA と既存の GUI 操作軌跡・エージェントデータセットの比較。VideoCUA は、プロフェッショナルデスクトップアプリケーション向けの連続 30fps ビデオと長文の多層 CoT アノテーションを提供する唯一のデータセットです。

## 評価結果

MAI-UI-32B は平均精度 47.7% を達成し、評価対象 16 モデルの中でトップです。Basic と Functional カテゴリは 60% に近づく一方、 Spatial 分割は依然として困難 （最大 26.9%）であり、空間推論が主要な課題であることを示しています。

スケーリングは一貫した改善をもたらします: OpenCUA は 7B から 72B への拡大で 7.6 ポイント 改善。PhiGround-7B と o3 プランナーの組み合わせで 9.0 ポイント 向上し、推論に基づく指示が実行エラーを軽減することを示しています。

OpenCUA-32B は、87 アプリケーションにまたがる 256 のサンプルタスクで 37.7% @50px の成功率を達成しました（7B の 16.5% と比較）。

人間による評価では重大な非対称性が明らかになりました: 行動の正確性は 85.9% に達する一方、グラウンディングの正確性はわずか 52.4% です — モデルは正しい行動タイプを頻繁に特定しますが、対象の UI 要素を正確に位置特定することに失敗しています。

### 代表的な予測失敗事例

図 2 は一般的な失敗パターンを示しています: モデルは、複雑なマルチパネルインターフェースに分散した 視覚的に類似したインタラクティブ要素を区別することに苦労 しています。Krita ではツールサイドバーの代わりにレイヤーパネルをターゲットにし（クロスパネル混同）、FreeCAD ではツールバーとモデルツリーを混同しています。これらの失敗はプロフェッショナルデスクトップアプリケーションに特有のものであり、まさに既存の訓練データが最も不足している領域です。

## 12 カテゴリにわたる 87 のアプリケーション

CUA-Suite は、ソフトウェア開発（VS Code、Eclipse、PyCharm）からコンテンツ制作（Blender、Inkscape、Krita）、財務（GnuCash、Frappe Books）に至る 12 カテゴリにわたり、寛容なライセンスの オープンソースアプリケーション を優先しています。これらのアプリケーションはクローズドソースの対応製品を反映しており、幅広い適用性を確保しています。

表 4: CUA-Suite におけるデスクトップアプリケーションのカテゴリとそれに対応するアプリケーション。

アプリケーションごとの性能は、インターフェースの複雑さに応じて 20 倍 の差があります:

専門的なビジュアルインターフェースを持つアプリケーション — クリエイティブツール（Darktable、Krita）、キャンバスベースツール（FreeCAD、QGIS）、メディアアプリケーション（Kodi）— が最も低い成功率を示しています。標準的なツールバー配置を持つ Web 系アプリケーション（ブラウザ、スプレッドシート、IDE）は、既存のモデル訓練データの分布とよりよく一致しています。

## 多層推論軌跡

VideoCUA は、多層推論合成パイプラインを用いて生のビデオ録画に高密度な軌跡アノテーションを付加します。タスク軌跡の各キーフレームに対して、ステップあたり平均 497 語 の 4 つの相補的なアノテーション層が生成されます:

### 例: Krita デジタルアートタスク

以下のスクリーンショットは、Krita タスクの軌跡を示しています: 「円形を描き、緑色で塗りつぶす」。各ステップで画面状態と 4 つのアノテーション層が記録されています。

## 示唆と今後の方向性

自動評価と人間による評価の両方が同じ結論に収束しています: 現在の基盤行動モデルは プロフェッショナルデスクトップアプリケーションで大きく苦戦 しており、37.7% @50px および 57.6% の人間検証済みステップワイズ精度しか達成していません。アプリケーションごとの大きな性能差は、プロフェッショナルデスクトップソフトウェアの多様なビジュアルボキャブラリとインタラクションパターンに核心的な困難があることを裏付けており、この領域では既存の訓練データが不足しています。

VideoCUA は、 ドメインカバレッジ （87 のプロフェッショナルアプリケーション）、 ビデオスケール （55 時間の連続 30fps 録画）、 アノテーション密度 （ステップあたり約 497 語）、 アクション多様性 （ドラッグ、微細なマウス制御など Web 中心のデータセットでは過小代表されているもの）を通じて、このドメインギャップに直接取り組んでいます。

すべてのデータ、ベンチマーク、モデルが公開されています。 · arXiv:2603.24440
