WildDet3D: Scaling Promptable 3D Detection in the Wild

概要

1枚の画像から物体を3Dで理解することは、空間認識の基盤となる技術です。その実現に向けた重要なステップが単眼3D物体検出——RGB画像1枚から物体の範囲・位置・向きを復元することです。実世界での実用化には、クローズドセットのカテゴリを超えた汎化能力、多様なプロンプト形式のサポート、そして利用可能な幾何学的手がかりの活用が不可欠です。本研究では WildDet3D を提案します。テキスト・点・ボックスプロンプトを単一の幾何学認識アーキテクチャで統合した、最先端のオープン語彙単眼3D検出器です。また WildDet3D-Data も合わせて提案します。自動化された2Dから3Dへのパイプラインと人間・VLMによる検証を組み合わせて構築された、13,500カテゴリにわたる約100万枚の大規模実世界データセットです。WildDet3Dは WildDet3D-Bench において22.6 AP3Dを達成し——従来最良手法と比べて10倍の改善——Omni3D、ゼロショット転移、モバイル・ロボティクス・AR/VRプラットフォームへの実世界展開においても優れた性能を示します。

01

はじめに

物体を3Dで理解することは、空間認識の根幹をなします。エージェントが物理世界を確実にナビゲート・操作・推論するには、物体が何であるかを知るだけでは不十分で——物体がどこにあるか、どれくらいの大きさか、そして3D空間でどのような向きをしているかも把握しなければなりません。この能力こそが、ロボティクス・身体化AI・自動運転・AR/VRの中核にあるもので、これらの分野では精密な空間認識が成否を左右します。

汎用単眼3D検出器に求められる3つの要件

実世界での汎化 — 物体カテゴリはロングテールで際限なく広がり、学習時に未見のものも多数存在します。
複数プロンプト形式のサポート — テキストクエリ、2Dポイントクリック、2Dバウンディングボックス、視覚的サンプル例への対応。
オプションの深度情報の活用 — LiDAR・ステレオカメラ・ToFセンサーから得られる部分的または完全な深度マップが利用できる場合に組み込みます。

既存手法はこの3つの要件を同時に満たせません——クローズドセットのカテゴリのみ対応、単一プロンプト形式のみ、あるいは深度情報を無視するかのいずれかです。WildDet3Dは、統合された幾何学認識アーキテクチャと大規模実世界データセットによって、3つの要件すべてを満たします。

700カテゴリ以上のオープン語彙に対応した実世界ベンチマーク WildDet3D-Bench において、WildDet3Dはテキストプロンプトで 22.6 AP3D、ボックスプロンプトで 24.8 AP3D を達成しました。従来最良手法（3D-MOOD）の2.3 APと比べ、10倍の改善です。

WildDet3D system overview — 図1: WildDet3Dはあらゆる画像とあらゆるプロンプト（テキスト、点、ボックス）を受け付け、3Dバウンディングボックスを出力します。モバイル端末・ロボット・AR/VRへの展開を実現します。

02

WildDet3D アーキテクチャ

1枚のRGB画像 I、オプションのカメラ内部パラメータ K、オプションの深度マップ D、ユーザープロンプト P を入力として、WildDet3Dは3Dバウンディングボックスの集合 {B_i} を予測します。各ボックスはメートル空間での3D中心座標・物理的サイズ・向きをエンコードします。アーキテクチャは3つの主要コンポーネントで構成されています。

WildDet3D architecture — 図3: WildDet3Dアーキテクチャ。（青）デュアルビジョンエンコーダがRGBとオプションのRGBD入力を処理します。（黄）Depth Fusion Moduleが深度潜在特徴を画像特徴に注入します。（赤）カメラレイ埋め込みを持つ3D検出ヘッドが2Dクエリを3Dバウンディングボックスに変換します。

なぜ2つのビジョンエンコーダが必要なのか？ WildDet3Dは同じ画像に対して2つの独立したニューラルネットワークを実行します。物体が何であるかを認識するセマンティックエンコーダ（DINOv2 ViT-L）と、物体がどこにあるかを理解する深度エンコーダ（ViT-H）です。両者の特徴はControlNetスタイルの「Depth Fusion」層で統合されます。この分割設計により、両方の役割を1つのネットワークに押し付けることなく——豊かな物体セマンティクスと幾何学的深度手がかりという——それぞれの長所を最大限に活かせます。

2.1 デュアルビジョンエンコーダ

🔍

画像エンコーダ

SimpleFPNネックを持つViT-Hバックボーン。セグメンテーション事前学習済みチェックポイントで初期化され、強力な密予測特徴を提供します。下流の検出タスク向けに256チャンネルのP2特徴マップを生成します。

📐

RGBDエンコーダ

686×686解像度で4チャンネルRGBD入力を受け付けるDINOv2 ViT-L/14バックボーン。深度情報がない場合はゼロ埋めの深度チャンネルを使用します。ConvStackネックを通じて深度潜在特徴を生成します。

⚡

Depth Fusion Module

ControlNetスタイルの残差設計により、深度潜在特徴を画像特徴に注入します。ゼロ初期化によって学習開始時は恒等変換から始まり、事前学習済み表現を乱すことなく深度の寄与が段階的に学習されます。

Input modality comparison — 図2: 入力モダリティの比較。LiDARは高さ/6DoF情報が欠如。RGB単体はスケールと遮蔽の曖昧さが残る。RGB＋オプション深度は正確なメートルスケールと密な特徴を両立します。

2.2 プロンプタブル検出器

プロンプタブル検出器は、深度認識済みの視覚特徴をユーザー提供のプロンプトに基づいて条件付けし、物体ごとの予測を生成します。4種類の補完的プロンプト形式に対応しており、モダリティ間で均衡のとれた学習を確保するために全形式が同時に学習されます。

🔤

テキストプロンプト

カテゴリ名（例:「car」）——画像全体からそのカテゴリの全インスタンスを選択します。

📍

ポイントプロンプト

正/負のラベルを持つ1つ以上の2Dピクセル座標 (u, v) ——その位置にある単一の物体を選択します。

⬜

ボックスプロンプト

2Dバウンディングボックス (x1, y1, x2, y2) ——指定した2D領域内の単一の物体を選択します。

🖼️

サンプル例プロンプト

視覚的参照として使用する2Dバウンディングボックス——シーン全体から視覚的に類似した物体をすべて検出します。

2.3 多段階監視付き3D検出ヘッド

3D検出ヘッドは、L段のTransformerデコーダ層を通じて2Dクエリ特徴を3Dバウンディングボックス予測に変換します。各層でディープスーパービジョンを適用——すなわち全層で損失を計算——することで早期収束と特徴の有効活用を促します。

12次元3Dボックスエンコーディング

予測される各3Dボックスは12次元ベクトルとしてパラメータ化されます:

\mathbf{P}_{3d} = (\Delta c_x, \Delta c_y, \tilde{d}, \tilde{w}, \tilde{h}, \tilde{l}, r_1, \ldots, r_6)

各要素: (Δc_x, Δc_y) 中心オフセット; (d̃) 対数深度; (w̃, h̃, l̃) 対数サイズ; (r1…r6) 6D回転（グラム・シュミット直交化）。曖昧性のない回転正規化により、向き付き3Dボックスに内在する4倍の対称性を解消します。独立した 3D信頼度ブランチが深度精度と3D IoUを組み合わせた品質スコアを予測します。

2.4 マルチタスク学習

学習では4つの損失コンポーネントを集約します。1対多マッチング（k=4）により密な監視信号を確保します。不完全な3Dアノテーションを適切に扱うための無視領域メカニズムも備えています。

\(\mathcal{L}_{3D}\) 3D回帰（L1）

\(\mathcal{L}_{conf}\) 3D信頼度（focal BCE）

\(\mathcal{L}_{geom}\) 深度＆カメラパラメータ推定

\(\mathcal{L}_{2D}\) 2D検出（IoU + L1）

03

WildDet3D-Data — 100万件超の実世界3Dアノテーション

既存の3D検出データセットは100カテゴリ未満の狭いドメインに限られています。WildDet3D-Dataはその壁を突破します。22シーンカテゴリにわたる100万枚超の画像、370万件の有効な3Dアノテーション、13,500物体カテゴリ——Omni3Dのカテゴリカバレッジと比べて138倍の拡大です。自動化された2Dから3Dへのパイプラインと、人間・VLMによる二重検証を組み合わせて構築されました。

1,003,886 学習画像数

3.7M+ 3Dアノテーション数

13,499 物体カテゴリ数

22 シーンカテゴリ数

WildDet3D-Data construction pipeline — 図4: WildDet3D-Dataの構築パイプライン。5つの相補的モデルが2Dアノテーションから候補3Dボックスを生成し、ルールベースフィルタリングと二重経路選択（人手アノテーション＋VLMによる自動化）を経て確定します。

3段階の構築パイプライン

1

候補生成

5つの相補的手法（3D-MOOD、DetAny3D、SAM-3D、RANSAC-PCA、LabelAny3D）が2Dアノテーションから候補3Dボックスを生成します。MoGe-2がメートル深度を推定し、PerspectiveFieldsとWildCameraがカメラ姿勢と内部パラメータを推定します。

→

2

ルールベース＆VLMフィルタリング

エッジ接触・遮蔽・投影比率フィルタ。VLMベース（Qwen3.5-9B）による描写対象物・合成画像フィルタ。LLMによる推定（GPT-4.1-mini）サイズ・幾何学的妥当性フィルタ。

→

3

候補選択

ヒューマンセット（約10万件、Prolificアノテーター）: クラウドソーシングアノテーターが4つの視点から最良の候補を選択。合成セット（約89.6万件）: Qwen3.5-9B VLMが有効なアノテーションを自動選択し、GPT-4.1-miniのサイズチェックで検証。

Scene distribution of WildDet3D-Data — 図6: WildDet3D-Dataのシーン分布。屋内（52%）、都市（32%）、自然（15%）、パブリックスペースの22細分シーンカテゴリにわたります。

幅広いシーンカバレッジ

このデータセットは4つの主要シーンドメインにわたる前例のない視覚的多様性を持ちます:

屋内（52%） — 住宅、キッチン、オフィス、ジム
都市（32%） — 街路、市場、ランドマーク、建設現場
自然（15%） — 野生動物、風景、森林
パブリックスペース — 公園、スポーツ会場、交通ハブ

Diverse examples from WildDet3D-Data — 図5: WildDet3D-Dataの定性的サンプル。屋内環境・屋外市場・野生動物・街頭スポーツなど多様なシーンで、各々に3Dバウンディングボックスアノテーション（カテゴリラベルはピンク/グリーン）が付与されています。

04

実験

AP3Dとは？ AP3D（3D検出の平均適合率）は、モデルが3Dバウンディングボックスをどれだけ正確に予測できるかを測る指標です。通常の2D APとは異なり、正解とみなされるには予測ボックスが6次元すべて——位置（x, y, z）・サイズ（幅・高さ・奥行き）・向き——においてグランドトゥルースと一致する必要があります。スコア22.6 AP3D対従来最良の2.3 AP3Dという結果は、空間理解において約10倍の改善を意味します。

主要結果: 従来SOTAに対する10倍の改善

WildDet3D（本手法） 22.6 AP3D テキストプロンプト、WildDet3D-Bench

vs

3D-MOOD（従来最良手法） 2.3 AP3D テキストプロンプト、WildDet3D-Bench

WildDet3Dは WildDet3D-Bench ベンチマークにおいて従来SOTA手法3D-MOODに対する10倍の改善を達成し、レアカテゴリで最大の向上を示しています（AP_rare = 47.4 vs 3D-MOODの2.4）。これは未知物体クラスへの強力な汎化能力を証明しています。

4.2 WildDet3D-Bench — 実世界評価

WildDet3D-Benchは、人手で検証された3Dアノテーションを持つ700カテゴリ以上のオープン語彙をカバーする、本研究が提案する実世界ベンチマークです。カテゴリは出現頻度に応じてレア・コモン・フリークエントに分割されています。テスト時にGT深度を提供すると性能が大幅に向上します（22.6 → 41.6 AP3D）。

Method	Training Data	AP_rare	AP_common	AP_freq	AP3D
3D-MOOD	Omni3D	2.4	2.1	2.6	2.3
WildDet3D (text)	Omni3D	9.0	6.5	5.2	6.8
WildDet3D (text, +GT depth)	Omni3D	23.0	21.5	16.1	20.7
WildDet3D (text)	Omni3D + Others + WildDet3D-Data	28.3	21.6	18.7	22.6
WildDet3D (text, +GT depth)	Omni3D + Others + WildDet3D-Data	47.4	40.7	37.2	41.6
WildDet3D (box)	Omni3D + Others + WildDet3D-Data	30.0	24.2	20.3	24.8
WildDet3D (box, +GT depth)	Omni3D + Others + WildDet3D-Data	53.7	46.1	42.5	47.2

表: WildDet3D-Bench評価。フルデータセットで学習したWildDet3Dは22.6 AP3D（テキスト）、24.8 AP3D（ボックス）、GT深度使用時に41.6/47.2を達成——従来手法を大幅に上回ります。

4.3 Omni3D 標準ベンチマーク

標準Omni3Dベンチマーク（6データセット: KITTI、nuScenes、SUNRGBD、Hypersim、ARKitScenes、Objectron）において、WildDet3Dはテキストプロンプトで 34.2 AP3D、ボックスプロンプトで 36.4 AP3D を達成——3D-MOOD（28.4 AP）を学習エポック数10分の1（12 vs. 120エポック）で+5.8 AP上回ります。実深度使用時のオラクル性能は 45.8 AP3D に達します。

4.4 ゼロショット汎化

Omni3Dで学習し、Argoverse 2（屋外、26クラス）とScanNet（屋内、18クラス）でゼロショット評価を行ったところ、WildDet3DはAV2で 40.3 ODS、ScanNetで 48.9 ODS を達成——3D-MOOD Swin-Bをそれぞれ+16.5および+17.4 ODS上回りました。また向き推定でも最高性能を達成し、未知ドメインへの強力な3D理解能力を示しています。

Zero-shot evaluation comparison — 図8: 未知カテゴリ（Car/SUV、カエル、ステープラー、クマ）に対するWildDet3Dと3D-MOODのゼロショット比較。WildDet3Dは多様な視点でさまざまな3D物体を正確に局在化します。

4.5 実深度センサーを用いた評価

Real depth sensor evaluation — 図10: 屋内シーンでの実深度センサー入力を用いたWildDet3D。黄色の3Dバウンディングボックスが家具や機器を精密なメートルスケールで正確に局在化しています。

4.7 定性的結果

Qualitative comparison — 図7: 4つの多様なシーンにおけるWildDet3D（オレンジ）vs OVMono3D（グリーン）vs DetAny3D（オレンジ/グリーン）の定性的比較。WildDet3Dはグランドトゥルース（紫）により近い、タイトで精度の高い3Dバウンディングボックスを生成します。

05

応用事例

WildDet3Dはスマートフォンからロボット、ARヘッドセットまで、多様な実世界プラットフォームに展開可能な汎用3D認識モジュールとして機能します。

📱

iPhoneアプリ

WildDet3DはクライアントサーバーアーキテクチャによりiPhoneで動作し、カメラからリアルタイムの実世界3D検出を実現します。ユーザーは2Dボックスを描くかテキストで入力するだけで、あらゆる物体を3Dで検出できます。App Storeで公開中。

🤖

ロボットマニピュレーション

WildDet3Dはロボットコントローラが空間グラウンディングと把持に利用する精密な3Dバウンディングボックスを提供します。ロボットマニピュレーションタスク向けの汎用知覚フロントエンドとして機能します。

🥽

AR/VR & 実深度

Meta QuestおよびMeta GlassesとのAR空間アンカリング統合。WildDet3Dは検出した物体を3D空間にマッピングし、正確なARオーバーレイの位置合わせとシーン理解を実現します。

注: ここで示している応用事例（iPhoneアプリ、ロボティクス、AR/VR、言語エージェント）は、オープン語彙3D検出の汎用性を示す 研究プロトタイプ であり、本番システムではありません。深度・サイズの誤差や検出漏れが生じる可能性があります。WildDet3Dは安全性が要求されるアプリケーションへの使用を意図していません。

WildDet3D-Agent: 言語ガイド付き3D検出

WildDet3DをVLM（Qwen3-VL）と統合することで、WildDet3D-Agentを構築しました。3D空間コンテンツに関する自然言語クエリに答えるシステムです。「最も近い人を探して」「カロリーが最も高い食べ物はどれ?」といったクエリに対して、エージェントが3D空間関係を推論し、対象物体をハイライトします。

WildDet3D-Agent qualitative results — 図12: WildDet3D-Agentの比較。WildDet3D-Agent（右）は言語クエリを精確な3D局在化に正しく接地します——例えば最も近い人物、最高カロリーの食べ物、最も高価な物体の特定——VST、Qwen3-VLベースラインを上回ります。

07

制限事項

カメラ内部パラメータ: 予測されたキャリブレーションパラメータはグランドトゥルースより精度が低く、キャリブレーションされていない環境での絶対深度や物理サイズ推定において3D局在化精度が低下します。
単眼深度の曖昧さ: 1枚の画像だけでは追加情報なしにメートル深度を完全に解決することはできません。学習済みの深度事前知識があっても、遠距離や大きく遮蔽された物体でのパフォーマンスは依然として限定的です。
回転推定: 回転予測はシステムの最も弱いコンポーネントです。ほぼ対称な形状（丸いテーブル、四角い箱など）や視認できる表面積が少ない物体は、向き推定において特に困難を伴います。
用途 & 安全性: 示されている応用事例（iPhone、AR/VR、ロボティクス、言語エージェント）はいずれも研究プロトタイプであり、本番システムではありません。WildDet3Dは自律走行・外科計画・構造物評価などの安全性が要求されるアプリケーションへの使用を意図していません。

08

おわりに

本研究では、テキスト・点・ボックスプロンプトを単一の幾何学認識アーキテクチャで統合したオープン語彙単眼3D物体検出器 WildDet3D、および人手で検証された3Dアノテーションを持つ100万枚・13,500カテゴリの大規模実世界データセット WildDet3D-Data を提案しました。

WildDet3Dは全ベンチマークで最先端の結果を達成し、学習エポック数は従来手法の6〜10分の1です。デュアルビジョンエンコーダ・柔軟なプロンプト対応・大規模多様データによる学習の組み合わせにより、未知のドメイン・物体・展開プラットフォーム（モバイル・ロボティクス・AR/VR・言語エージェント）への強力なゼロショット汎化を実現しています。

34.2 Omni3D上のAP3D

10× より少ない学習エポック数

700+ 実世界対応カテゴリ数

参考文献

Aichner, R. et al. "nuScenes: A multimodal dataset for autonomous driving." CVPR, 2020.
Bai, J. et al. "Qwen: Technical Report." arXiv:2309.16609, 2023.
Bolya, D. et al. "YOLACT: Real-time Instance Segmentation." ICCV, 2019.
Caesar, H. et al. "nuScenes: A multimodal dataset for autonomous driving." CVPR, 2020.
Cheng, B. et al. "Masked-attention mask transformer for universal image segmentation." CVPR, 2022.
Brazil, G. et al. "Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild." CVPR, 2023.
... (additional references)