← Flecto

CUA-Suite: コンピュータ操作エージェントのための大規模人手アノテーション付きビデオデモンストレーション

Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Bechard, Spandana Gella, Sai Rajeswar

ServiceNow · University of Waterloo · Mila · Université de Montréal · McGill University · University of Oxford · National University of Singapore

プロジェクトページ →
55 時間
10,000 タスクにわたる 600 万フレームの連続 30fps エキスパートビデオ
87
12 の多様なカテゴリにわたるプロフェッショナルデスクトップアプリケーション
497 語
ステップごとの多層推論アノテーションの平均語数
360 万
GroundCUA の 56K スクリーンショットにわたる UI 要素アノテーション

CUA-Suite エコシステム

CUA-Suite 概要: デスクトッププラットフォーム全体で人間の GUI 操作軌跡が記録され、エキスパートにより検証され、キーフレーム、バウンディングボックス、インタラクションログでアノテーションされます。
図 1: CUA-Suite 概要。デスクトッププラットフォーム全体で人間の GUI 操作軌跡が記録され、エキスパートにより検証され、キーフレーム、バウンディングボックス、インタラクションログでアノテーションされます。本スイートは UI-Vision、GroundCUA、VideoCUA で構成されます。

「コンピュータ操作エージェント(CUA)」とは?

コンピュータ操作エージェントとは、画面(ピクセルまたは解析されたUI要素)を観察し、クリック、タイピング、ドラッグ、スクロールなどのアクションを実行することでデスクトップコンピュータを操作できるAIシステムです。Web APIやコード実行とは異なり、CUAは人間と同じように視覚的にソフトウェアと対話するため、特別な統合なしにあらゆるアプリケーションに適用できます。主な課題は「現在何が画面に表示されているかを理解すること」「目標を達成するためにどのアクションを取るべきか知ること」「複雑なインターフェース上で正確にどこをクリックするかを特定すること」です。

VideoCUA
  • 約 10,000 件の人手によるタスクデモンストレーション
  • 55 時間の連続 30fps スクリーン録画
  • ミリ秒精度のキネマティックカーソル軌跡
  • 多層推論アノテーション(観察、思考、行動、振り返り)
  • OpenCUA および ScaleCUA とフォーマット互換
GroundCUA
  • 56K 枚のアノテーション付きスクリーンショット
  • 360 万件の UI 要素アノテーション
  • ピクセル精度の人手検証済みバウンディングボックス
  • 要素の 50% に対する 8 つの意味カテゴリ
  • グラウンディング用の 70 万件の instruction-tuning データセット
UI-Vision
  • 450 件の高品質タスクデモンストレーション
  • Element Grounding: テキストから UI 要素を特定
  • Layout Grounding: 機能的に関連するグループを識別
  • Action Prediction: 次の正しい行動を予測
  • エージェント失敗の多面的診断

VideoCUA の比較優位性

既存のデータセットがデスクトップCUAに不十分な理由

ほとんどのCUA研究はWebブラウザとモバイルアプリに集中してきました。これらの環境は自動的にインストルメント化しやすいためです。WebのDOMは要素の正確な位置を提供し、モバイルのアクセシビリティツリーは意味的なラベルを提供します。プロのデスクトップアプリケーション(Blender、FreeCAD、Krita、QGIS)はアクセシビリティメタデータのないカスタム描画ウィジェットを使用しています。モデルはピクセルのみからUIを理解する必要があります。既存のデータセットはプラットフォームが異なるか、静止スクリーンショットのみ(複数ステップタスクの時間的軌跡が欠如)か、合成生成(ノイズと非現実的なインタラクションパターン)かのいずれかです。VideoCUAは3つのギャップを同時に解決します。

既存の GUI 操作軌跡データセットには重大な制約があります: Mind2Web や AITW などの Web・モバイルデータセットはデスクトップカバレッジが欠如しており、ScaleCUA や OpenCUA などのスクリーンショットベースのデータセットは最終クリック座標のみを記録するため時間的動態を見逃しています。また、合成データセットは自動生成に固有のノイズに悩まされます。VideoCUA は、連続 30fps ビデオ、デスクトップ特化、人手によるキュレーション、大規模な多層 Chain-of-Thought アノテーションを同時に提供する唯一のデータセットであり、既存最大のオープンデータセットの 2.5 倍以上の規模を誇ります。

表 2: VideoCUA と既存の GUI 操作軌跡・エージェントデータセットの比較

表 2: VideoCUA と既存の GUI 操作軌跡・エージェントデータセットの比較。VideoCUA は、プロフェッショナルデスクトップアプリケーション向けの連続 30fps ビデオと長文の多層 CoT アノテーションを提供する唯一のデータセットです。

評価結果

Element Grounding (UI-Vision)
表 1: UI-Vision における Element Grounding 性能

MAI-UI-32B は平均精度 47.7% を達成し、評価対象 16 モデルの中でトップです。Basic と Functional カテゴリは 60% に近づく一方、Spatial 分割は依然として困難(最大 26.9%)であり、空間推論が主要な課題であることを示しています。

「Element Grounding」と@50px指標とは?

Element Groundingとは、UI要素のテキスト説明(「保存ボタン」「レイヤーパネルのスクロールバー」)が与えられたとき、画面上のその要素のピクセル座標を予測することを意味します。@50px指標は、予測がグランドトゥルースの中心から50ピクセル以内に収まる場合のみ正解とカウントします。このしきい値は意味があります。デスクトップのUI要素は小さいことが多く、ツールバーのボタンは24×24ピクセル程度です。50px以内に入ることは、実際に正しい要素をクリックできるほど近いことを意味します。「Spatial」カテゴリ(「上部ツールバーの左から3番目のアイコン」など)が最も難しいのは、視覚的外観とテキストラベルのマッチングだけでなく、カウントと相対空間推論が必要だからです。

スケーリングは一貫した改善をもたらします: OpenCUA は 7B から 72B への拡大で 7.6 ポイント改善。PhiGround-7B と o3 プランナーの組み合わせで 9.0 ポイント向上し、推論に基づく指示が実行エラーを軽減することを示しています。

Action Prediction (VideoCUA)
表 3: Action Prediction の結果

OpenCUA-32B は、87 アプリケーションにまたがる 256 のサンプルタスクで 37.7% @50px の成功率を達成しました(7B の 16.5% と比較)。

人間による評価では重大な非対称性が明らかになりました: 行動の正確性は 85.9% に達する一方、グラウンディングの正確性はわずか 52.4% です — モデルは正しい行動タイプを頻繁に特定しますが、対象の UI 要素を正確に位置特定することに失敗しています。

行動とグラウンディングの非対称性の説明

この非対称性は本論文の主要な発見です。「行動の正確性」(85.9%)はモデルが何をすべきかを理解していることを意味します(「カラーピッカーをクリックする」)。「グラウンディングの正確性」(52.4%)はモデルがどこをクリックするかを知っていることを意味します(正確なピクセル位置)。このギャップ(33.5ポイント)は、現在のモデルがタスク意図の強い意味的理解を持ちながら、空間的精度が弱いことを明らかにしています。重要なのは、正しい意図であっても間違った要素をクリックするとタスクが失敗することです。これは、プロのデスクトップCUAの主なボトルネックが推論ではなく正確な視覚的位置特定であることを示唆しており、GroundCUAの360万バウンディングボックスのような密なピクセルレベルのアノテーションデータの価値を指摘しています。

代表的な予測失敗事例

図 2: Krita、FreeCAD、Inkscape、OBS Studio における代表的な予測失敗事例

図 2 は一般的な失敗パターンを示しています: モデルは、複雑なマルチパネルインターフェースに分散した視覚的に類似したインタラクティブ要素を区別することに苦労しています。Krita ではツールサイドバーの代わりにレイヤーパネルをターゲットにし(クロスパネル混同)、FreeCAD ではツールバーとモデルツリーを混同しています。これらの失敗はプロフェッショナルデスクトップアプリケーションに特有のものであり、まさに既存の訓練データが最も不足している領域です。

12 カテゴリにわたる 87 のアプリケーション

CUA-Suite は、ソフトウェア開発(VS Code、Eclipse、PyCharm)からコンテンツ制作(Blender、Inkscape、Krita)、財務(GnuCash、Frappe Books)に至る 12 カテゴリにわたり、寛容なライセンスのオープンソースアプリケーションを優先しています。これらのアプリケーションはクローズドソースの対応製品を反映しており、幅広い適用性を確保しています。

表 4: デスクトップアプリケーションのカテゴリとそれに対応するアプリケーション

表 4: CUA-Suite におけるデスクトップアプリケーションのカテゴリとそれに対応するアプリケーション。

劇的な性能差

アプリケーションごとの性能は、インターフェースの複雑さに応じて 20 倍の差があります:

3.6%
Darktable
クリエイティブツール @50px 成功率 Web 系アプリ
73.3%
OnlyOffice

専門的なビジュアルインターフェースを持つアプリケーション — クリエイティブツール(Darktable、Krita)、キャンバスベースツール(FreeCAD、QGIS)、メディアアプリケーション(Kodi)— が最も低い成功率を示しています。標準的なツールバー配置を持つ Web 系アプリケーション(ブラウザ、スプレッドシート、IDE)は、既存のモデル訓練データの分布とよりよく一致しています。

多層推論軌跡

VideoCUA は、多層推論合成パイプラインを用いて生のビデオ録画に高密度な軌跡アノテーションを付加します。タスク軌跡の各キーフレームに対して、ステップあたり平均 497 語の 4 つの相補的なアノテーション層が生成されます:

497語/ステップのChain-of-Thoughtアノテーションがなぜ訓練に有用なのか?

アクション予測のためにモデルを訓練するとき、最もシンプルなラベルはクリック座標のみです。しかしこの方法で訓練されたモデルは「理由」を理解せずにパターンマッチングを学習します。エージェントが画面上で何を観察し、何を考え、どのアクションを取り、次に何が起こると予期しているかを記述した497語のアノテーションを提供することで、豊かな教師信号を与えます。訓練中にモデルはアクションを予測する前にこの推論チェーンを生成する(または暗黙的に「考える」)ことを学習します。「Chain-of-Thought蒸留」と呼ばれるこのテクニックはLLMの推論を劇的に改善したものと同じアプローチです。GUIエージェントに適用すると、アクションを起こす前にインターフェースの状態について推論することを学習させ、ランダムなクリックの失敗を減らします。

観察(Observation)
現在の画面状態の詳細な記述。関連する UI 要素とその空間配置を特定します。
思考(Thought)
上位のタスク目標と即座の行動選択を結びつける推論チェーン。
行動(Action)
生の座標ではなく、視覚的要素に基づいて記述される意図した行動。
振り返り(Reflection)
結果の分析。訓練のための自己修正シグナルを可能にします。

例: Krita デジタルアートタスク

以下のスクリーンショットは、Krita タスクの軌跡を示しています: 「円形を描き、緑色で塗りつぶす」。各ステップで画面状態と 4 つのアノテーション層が記録されています。

示唆と今後の方向性

自動評価と人間による評価の両方が同じ結論に収束しています: 現在の基盤行動モデルはプロフェッショナルデスクトップアプリケーションで大きく苦戦しており、37.7% @50px および 57.6% の人間検証済みステップワイズ精度しか達成していません。アプリケーションごとの大きな性能差は、プロフェッショナルデスクトップソフトウェアの多様なビジュアルボキャブラリとインタラクションパターンに核心的な困難があることを裏付けており、この領域では既存の訓練データが不足しています。

VideoCUA は、ドメインカバレッジ(87 のプロフェッショナルアプリケーション)、ビデオスケール(55 時間の連続 30fps 録画)、アノテーション密度(ステップあたり約 497 語)、アクション多様性(ドラッグ、微細なマウス制御など Web 中心のデータセットでは過小代表されているもの)を通じて、このドメインギャップに直接取り組んでいます。

汎用スクリーンパーシング
キャンバスベースやカスタム描画ウィジェットをカバーする堅牢なデスクトップスクリーンパーサーの訓練のための、高密度な人手検証済みバウンディングボックスアノテーション。
連続的空間制御
視覚的フィードバックからの連続マウス移動ポリシー学習のための、人間の動作プライア(Fitts の法則)を保持するキネマティックカーソル軌跡。

Fittsの法則とは何か、CUA訓練においてなぜ重要なのか?

Fittsの法則は人間の動作の予測モデルです。ターゲットへの移動時間は、ターゲットまでの距離とその大きさに依存します(T = a + b·log2(2D/W))。人間がマウスを使う際、カーソルの軌跡は直線ではありません。ターゲットに近づくにつれて減速し、オーバーシュートして自己修正し、開けた空間では速く移動します。これらの運動学的特性はターゲットの大きさと位置に関する暗黙的な知識を符号化しています。モデルがクリック座標だけでなく人間のカーソル軌跡から学習することで、Fittsの法則を暗黙的に学習します。これにより、「ゆっくり、慎重な」軌跡が小さいまたは精密なターゲットに向かっていることを認識できます。これによりCUAは、明示的な座標訓練なしに新しいインターフェースレイアウトへのマウス移動を汎化できる可能性があります。

視覚的世界モデル
行動条件付きビデオ生成と視覚的先読み計画のための、高密度 30fps 状態-行動-次状態三つ組。
ビデオベース報酬モデリング
きめ細かいステップワイズ報酬モデルの訓練のためのポジティブデモンストレーションとしての連続エキスパートビデオ録画。
プロジェクトページを見る

すべてのデータ、ベンチマーク、モデルが公開されています。 · arXiv:2603.24440

B2B Content

あらゆるコンテンツを、御社向けに美麗に制作します

PDF・動画・Webページ等のあらゆる素材から、プロダクション品質のコンテンツを制作します。リッチHTML・カスタムスライド・アニメーション動画。

サービス詳細を見る お問い合わせ