あらゆる画像・あらゆるプロンプト(テキスト、点、バウンディングボックス)を受け付け、精密な3Dバウンディングボックスを出力する統合型オープン語彙単眼3D物体検出器。あらゆるシーンでの空間認識を可能にします。
Allen Institute for AI · University of Washington · Cornell University · UNC-Chapel Hill · Johns Hopkins University
1枚の画像から物体を3Dで理解することは、空間認識の基盤となる技術です。その実現に向けた重要なステップが単眼3D物体検出——RGB画像1枚から物体の範囲・位置・向きを復元することです。実世界での実用化には、クローズドセットのカテゴリを超えた汎化能力、多様なプロンプト形式のサポート、そして利用可能な幾何学的手がかりの活用が不可欠です。本研究では WildDet3D を提案します。テキスト・点・ボックスプロンプトを単一の幾何学認識アーキテクチャで統合した、最先端のオープン語彙単眼3D検出器です。また WildDet3D-Data も合わせて提案します。自動化された2Dから3Dへのパイプラインと人間・VLMによる検証を組み合わせて構築された、13,500カテゴリにわたる約100万枚の大規模実世界データセットです。WildDet3Dは WildDet3D-Bench において22.6 AP3Dを達成し——従来最良手法と比べて10倍の改善——Omni3D、ゼロショット転移、モバイル・ロボティクス・AR/VRプラットフォームへの実世界展開においても優れた性能を示します。
物体を3Dで理解することは、空間認識の根幹をなします。エージェントが物理世界を確実にナビゲート・操作・推論するには、物体が何であるかを知るだけでは不十分で——物体がどこにあるか、どれくらいの大きさか、そして3D空間でどのような向きをしているかも把握しなければなりません。この能力こそが、ロボティクス・身体化AI・自動運転・AR/VRの中核にあるもので、これらの分野では精密な空間認識が成否を左右します。
既存手法はこの3つの要件を同時に満たせません——クローズドセットのカテゴリのみ対応、単一プロンプト形式のみ、あるいは深度情報を無視するかのいずれかです。WildDet3Dは、統合された幾何学認識アーキテクチャと大規模実世界データセットによって、3つの要件すべてを満たします。
700カテゴリ以上のオープン語彙に対応した実世界ベンチマーク WildDet3D-Bench において、WildDet3Dはテキストプロンプトで 22.6 AP3D、ボックスプロンプトで 24.8 AP3D を達成しました。従来最良手法(3D-MOOD)の2.3 APと比べ、10倍の改善です。
1枚のRGB画像 I、オプションのカメラ内部パラメータ K、オプションの深度マップ D、ユーザープロンプト P を入力として、WildDet3Dは3Dバウンディングボックスの集合 {Bi} を予測します。各ボックスはメートル空間での3D中心座標・物理的サイズ・向きをエンコードします。アーキテクチャは3つの主要コンポーネントで構成されています。
SimpleFPNネックを持つViT-Hバックボーン。セグメンテーション事前学習済みチェックポイントで初期化され、強力な密予測特徴を提供します。下流の検出タスク向けに256チャンネルのP2特徴マップを生成します。
686×686解像度で4チャンネルRGBD入力を受け付けるDINOv2 ViT-L/14バックボーン。深度情報がない場合はゼロ埋めの深度チャンネルを使用します。ConvStackネックを通じて深度潜在特徴を生成します。
ControlNetスタイルの残差設計により、深度潜在特徴を画像特徴に注入します。ゼロ初期化によって学習開始時は恒等変換から始まり、事前学習済み表現を乱すことなく深度の寄与が段階的に学習されます。
プロンプタブル検出器は、深度認識済みの視覚特徴をユーザー提供のプロンプトに基づいて条件付けし、物体ごとの予測を生成します。4種類の補完的プロンプト形式に対応しており、モダリティ間で均衡のとれた学習を確保するために全形式が同時に学習されます。
カテゴリ名(例:「car」)——画像全体からそのカテゴリの全インスタンスを選択します。
正/負のラベルを持つ1つ以上の2Dピクセル座標 (u, v) ——その位置にある単一の物体を選択します。
2Dバウンディングボックス (x1, y1, x2, y2) ——指定した2D領域内の単一の物体を選択します。
視覚的参照として使用する2Dバウンディングボックス——シーン全体から視覚的に類似した物体をすべて検出します。
3D検出ヘッドは、L段のTransformerデコーダ層を通じて2Dクエリ特徴を3Dバウンディングボックス予測に変換します。各層でディープスーパービジョンを適用——すなわち全層で損失を計算——することで早期収束と特徴の有効活用を促します。
予測される各3Dボックスは12次元ベクトルとしてパラメータ化されます:
各要素: (Δc_x, Δc_y) 中心オフセット; (d̃) 対数深度; (w̃, h̃, l̃) 対数サイズ; (r1…r6) 6D回転(グラム・シュミット直交化)。曖昧性のない回転正規化により、向き付き3Dボックスに内在する4倍の対称性を解消します。独立した 3D信頼度ブランチが深度精度と3D IoUを組み合わせた品質スコアを予測します。
学習では4つの損失コンポーネントを集約します。1対多マッチング(k=4)により密な監視信号を確保します。不完全な3Dアノテーションを適切に扱うための無視領域メカニズムも備えています。
既存の3D検出データセットは100カテゴリ未満の狭いドメインに限られています。WildDet3D-Dataはその壁を突破します。22シーンカテゴリにわたる100万枚超の画像、370万件の有効な3Dアノテーション、13,500物体カテゴリ——Omni3Dのカテゴリカバレッジと比べて138倍の拡大です。自動化された2Dから3Dへのパイプラインと、人間・VLMによる二重検証を組み合わせて構築されました。
5つの相補的手法(3D-MOOD、DetAny3D、SAM-3D、RANSAC-PCA、LabelAny3D)が2Dアノテーションから候補3Dボックスを生成します。MoGe-2がメートル深度を推定し、PerspectiveFieldsとWildCameraがカメラ姿勢と内部パラメータを推定します。
エッジ接触・遮蔽・投影比率フィルタ。VLMベース(Qwen3.5-9B)による描写対象物・合成画像フィルタ。LLMによる推定(GPT-4.1-mini)サイズ・幾何学的妥当性フィルタ。
ヒューマンセット(約10万件、Prolificアノテーター): クラウドソーシングアノテーターが4つの視点から最良の候補を選択。合成セット(約89.6万件): Qwen3.5-9B VLMが有効なアノテーションを自動選択し、GPT-4.1-miniのサイズチェックで検証。
このデータセットは4つの主要シーンドメインにわたる前例のない視覚的多様性を持ちます:
WildDet3Dは WildDet3D-Bench ベンチマークにおいて従来SOTA手法3D-MOODに対する10倍の改善を達成し、レアカテゴリで最大の向上を示しています(APrare = 47.4 vs 3D-MOODの2.4)。これは未知物体クラスへの強力な汎化能力を証明しています。
WildDet3D-Benchは、人手で検証された3Dアノテーションを持つ700カテゴリ以上のオープン語彙をカバーする、本研究が提案する実世界ベンチマークです。カテゴリは出現頻度に応じてレア・コモン・フリークエントに分割されています。テスト時にGT深度を提供すると性能が大幅に向上します(22.6 → 41.6 AP3D)。
| Method | Training Data | APrare | APcommon | APfreq | AP3D |
|---|---|---|---|---|---|
| 3D-MOOD | Omni3D | 2.4 | 2.1 | 2.6 | 2.3 |
| WildDet3D (text) | Omni3D | 9.0 | 6.5 | 5.2 | 6.8 |
| WildDet3D (text, +GT depth) | Omni3D | 23.0 | 21.5 | 16.1 | 20.7 |
| WildDet3D (text) | Omni3D + Others + WildDet3D-Data | 28.3 | 21.6 | 18.7 | 22.6 |
| WildDet3D (text, +GT depth) | Omni3D + Others + WildDet3D-Data | 47.4 | 40.7 | 37.2 | 41.6 |
| WildDet3D (box) | Omni3D + Others + WildDet3D-Data | 30.0 | 24.2 | 20.3 | 24.8 |
| WildDet3D (box, +GT depth) | Omni3D + Others + WildDet3D-Data | 53.7 | 46.1 | 42.5 | 47.2 |
表: WildDet3D-Bench評価。フルデータセットで学習したWildDet3Dは22.6 AP3D(テキスト)、24.8 AP3D(ボックス)、GT深度使用時に41.6/47.2を達成——従来手法を大幅に上回ります。
標準Omni3Dベンチマーク(6データセット: KITTI、nuScenes、SUNRGBD、Hypersim、ARKitScenes、Objectron)において、WildDet3Dはテキストプロンプトで 34.2 AP3D、ボックスプロンプトで 36.4 AP3D を達成——3D-MOOD(28.4 AP)を学習エポック数10分の1(12 vs. 120エポック)で+5.8 AP上回ります。実深度使用時のオラクル性能は 45.8 AP3D に達します。
Omni3Dで学習し、Argoverse 2(屋外、26クラス)とScanNet(屋内、18クラス)でゼロショット評価を行ったところ、WildDet3DはAV2で 40.3 ODS、ScanNetで 48.9 ODS を達成——3D-MOOD Swin-Bをそれぞれ+16.5および+17.4 ODS上回りました。また向き推定でも最高性能を達成し、未知ドメインへの強力な3D理解能力を示しています。
WildDet3Dはスマートフォンからロボット、ARヘッドセットまで、多様な実世界プラットフォームに展開可能な汎用3D認識モジュールとして機能します。
WildDet3DはクライアントサーバーアーキテクチャによりiPhoneで動作し、カメラからリアルタイムの実世界3D検出を実現します。ユーザーは2Dボックスを描くかテキストで入力するだけで、あらゆる物体を3Dで検出できます。App Storeで公開中。
WildDet3Dはロボットコントローラが空間グラウンディングと把持に利用する精密な3Dバウンディングボックスを提供します。ロボットマニピュレーションタスク向けの汎用知覚フロントエンドとして機能します。
Meta QuestおよびMeta GlassesとのAR空間アンカリング統合。WildDet3Dは検出した物体を3D空間にマッピングし、正確なARオーバーレイの位置合わせとシーン理解を実現します。
WildDet3DをVLM(Qwen3-VL)と統合することで、WildDet3D-Agentを構築しました。3D空間コンテンツに関する自然言語クエリに答えるシステムです。「最も近い人を探して」「カロリーが最も高い食べ物はどれ?」といったクエリに対して、エージェントが3D空間関係を推論し、対象物体をハイライトします。
本研究では、テキスト・点・ボックスプロンプトを単一の幾何学認識アーキテクチャで統合したオープン語彙単眼3D物体検出器 WildDet3D、および人手で検証された3Dアノテーションを持つ100万枚・13,500カテゴリの大規模実世界データセット WildDet3D-Data を提案しました。
WildDet3Dは全ベンチマークで最先端の結果を達成し、学習エポック数は従来手法の6〜10分の1です。デュアルビジョンエンコーダ・柔軟なプロンプト対応・大規模多様データによる学習の組み合わせにより、未知のドメイン・物体・展開プラットフォーム(モバイル・ロボティクス・AR/VR・言語エージェント)への強力なゼロショット汎化を実現しています。