---
arxiv_id: 2603.28032
title: "CARLA-Air: CARLA World内でドローンを飛行させる"
authors:
  - Tianle Zeng
  - Hanxuan Chen
  - Yanci Wen
  - Hong Zhang
difficulty: Advanced
tags:
  - Agent
  - Multimodal
  - Reasoning
published_at: 2026-04-05
flecto_url: https://flecto.zer0ai.dev/ja/papers/2603.28032/
lang: ja
---

> 空地複合知能のための統合インフラストラクチャ

**著者**: Tianle Zeng, Hanxuan Chen, Yanci Wen, Hong Zhang &mdash; Southern University of Science and Technology & Hunan University

## Abstract

### アブストラクト (または 抄録)

低高度経済、具現化された知能、および空地協働システムの収束は、単一で物理的に一貫性のある環境内で空域および地上のエージェントを共同でモデル化できるシミュレーションインフラストラクチャに対する高まるニーズを生み出している。既存のオープンソースプラットフォームは、特定のドメインに留まっている。都市運転シミュレータは豊かな交通を提供するが空域力学は提供せず、一方マルチローターシミュレータは物理学的に正確な飛行を提供するものの、リアルな地上シーンが不足している。

CARLA-Air は、高忠実度の都市走行と物理的に正確なマルチローター飛行を単一のUnreal Engineプロセス内で統合するオープンソースのインフラストラクチャです。CARLAとAirSimの両方のPython APIを維持し、最大18の同期センサーモダリティによる写真のようにリアルなレンダリングを可能にし、多様なシナリオ向けにカスタムアセットのインポートをサポートします。このプラットフォームは、協調的着陸、ビジョン・言語ナビゲーション、マルチモーダルデータセット収集、クロスビュー認識、および強化学習にわたる5つの代表的なアプリケーションワークフローを通じて、性能ベンチマークによって検証されています。

Figure 1: CARLA-Airは、ドローン、車両、および歩行者が共有の都市シミュレーション世界で共存できるようにし、カスタムアセット、ビジョン・言語ナビゲーション、マルチモーダルセンサー、および多様なシナリオカバレッジをサポートします。

### 航空・地上エージェント

### 単一の UE4 プロセス

### 18 センサー様式

### カスタムアセットインポート

### オープンソース

### アプリケーションワークフロー 5点

## Introduction

### なぜ CARLA-Air なのか？

三つの交差するフロンティアが自律システム研究を再構築しています。すなわち、 低高度経済 は都市空飛ぶ移動やドローン物流のためのスケーラブルなインフラを要求し、 具現化された知能 はフォトリアリスティックな環境で知覚し行動するエージェントを必要とし、そして 空地協調 は共有された世界内での共同の航空・地上推論を要求しています。

問題点: 既存のシミュレーターはドメイン特有です。CARLAは都市走行に優れていますが、航空ダイナミクスがありません。AirSimは物理的に正確な飛行を提供しますが、現実的な地上交通が不足しています。ブリッジベースのコシミュレーションアプローチ（2つのシミュレーターを個別のプロセスとして実行）は、同期オーバーヘッドを導入し、厳密な時空間的一貫性を保証することができません&mdash; センサーが増えるにつれて、フレームごとのデータ転送遅延が1msから20ms以上に増加します。

CARLA-Airは、両方のプラットフォームを 単一のUnreal Engine 4プロセス に統合することで、この問題を解決します。別のプロセスをブリッジする代わりに、CARLAの地上サブシステムを継承し、AirSimの空中飛行アクターを統一されたGameMode内で構成します。これにより、プロセス間通信が完全に排除され、センサー数にかかわらず サブミリ秒のデータ転送 を達成します。

図2: シミュレーターの領域比較。CARLA-Airは、CARLA (地上) と AirSim (空中) の両方の強みを組み合わせ、マルチドメインエージェントサポートを備えた、以前は空白であった高忠実度シミュレーションの象限を占めている。

## Conclusion

自動システム向けのシミュレーションプラットフォームは、歴史的にドメイン境界に沿って断片化しており、研究者はプロセス間ブリッジインフラストラクチャを維持するか、機能性の妥協を受け入れることを余儀なくされてきた。 CARLA-Airは、 高忠実度な都市走行（CARLA）と物理学的に正確なマルチローター飛行（AirSim）を単一のUnreal Engineプロセス内に統合することにより、この断片化を解決する。

中心的な技術的貢献は、UE4の単一GameModeの制約を解決する composition-based GameMode design です。これにより、ゼロのプロセス間遅延、CARLAとAirSimの両方との完全なAPI互換性、および共有レンダリングパイプラインが実現します。本プラットフォームは、共同のワークロードの下で約20 FPSの安定した動作を維持し、3時間の連続実行を通じてもクラッシュはゼロです。

5つの代表的なワークフローは、 単一ドメインプラットフォームでは構造的にアクセス不可能な 機能を示します。これらは、協調的な空地着陸、空撮視点からの視覚言語ナビゲーション、同期的なマルチモーダルデータセット収集、クロスビュー知覚、およびRLトレーニングです。CARLA-Airは、プリビルトバイナリと完全なソースコードとともにオープンソースとしてリリースされています。

## References

### 参考文献（20論文）

## Feature Comparison

### 機能比較

CARLA-Airは、地上車両、空中エージェント、高忠実度物理演算、豊富なセンサー群、マルチエージェントサポート、天気シミュレーション、カスタムアセットインポート、およびオープンソースでの利用可能性といった全ての主要機能を網羅した唯一のプラットフォームです。

## Architecture

### システムアーキテクチャ

CARLA-Airは、最小限のブリッジング層を介して、CARLAとAirSimを単一のUnreal Engineプロセス内に統合します。重要な洞察は、 コンポジションベースのデザイン です。 CARLAAirGameMode は、CARLAのGameModeBaseから継承し、すべての地上シミュレーションサブシステム（エピソード管理、天候、トラフィック、アクター、シナリオレコーダー）を取得し、一方、AirSimの空中飛行アクター（物理エンジン、飛行ポーン、空中センサースイート）は、 BeginPlay 中に標準的なワールドエンティティとして構成されます。両方のPython APIは、個別のRPCサーバーを介して同じUE4プロセスに接続し、RGB、深度、セグメンテーション、および天候エフェクトのための統一されたレンダリングパイプラインを共有します。

図3: CARLA-Airシステムアーキテクチャ。Python CARLAおよびAirSimクライアントは、独立したRPCサーバーを介して、CARLAAirGameModeを実行している単一のUE4プロセスに接続し、これは地上サブシステム（inherited）と空域飛行アクター（composed）を統合する。

### 主要設計決定事項

### ゲームモード コンフリクト解決

Unreal Engineでは、ワールドにつき アクティブなGameMode は1つのみ許可されています。CARLAとAirSimの両方のGameModeをロードするという素朴なアプローチはサイレントに失敗し、一方のモードが破棄され、そのAPIが無効になります。CARLA-Airは、 inheritance + composition を通じてこれを解決します：CARLAAirGameModeは、CARLAのGameModeBase（地上サブシステムを取得）を継承し、AirSimのフライトアクターを独立したエンティティとしてコンポーズ（結合）し、両方とも単一のGameModeスロットに収まるようにしています。

### 座標系マッピング

UE4/CARLA は 左手系座標システム (Z軸上向き、センチメートル) を使用し、一方 AirSim はメートル単位で NED (北-東-下) を使用します。CARLA-Air は、両方のAPIが一貫した位置を報告することを保証する、Zフリップとスケール変換 (cm &harr; m) を処理するリアルタイムの座標変換レイヤーを維持しています。

### アセットインポートパイプライン

CARLA-Airは、カスタムの3Dアセット（車両、ロボット、ドローン）をシミュレーションにインポートするための合理化されたパイプラインを提供します。ユーザーは、独自のモデル（モバイルロボットからスポーツカーまで）を持ち込むことができ、これによりデフォルトのアセットライブラリを超えた多様な研究シナリオが可能になります。

## Performance

### 業績評価

すべてのベンチマークは、Unreal Engine 4.26上で動作するCARLA 0.9.15を使用し、NVIDIA RTX 4090 GPUを搭載した単一のワークステーションで実施されました。3つの実験では、フレームレートスケーリング、メモリの安定性、および通信遅延が評価されました。

### 1280×720における、地上車両、歩行者、およびドローンによるマルチドメインシミュレーション

### 357回のリセットサイクルを伴う3時間超の連続稼働 — メモリリークは検出されませんでした

### 16センサーによるブリッジベースの共同シミュレーションの20msと比較した、フレームごとのデータ転送

### フレームレートとリソースのスケーリング

航空ドメインを追加してもオーバーヘッドは最小限です：地上のみのCARLAは28.4 FPSを達成し、一方マルチドメインのCARLA-Airは、同等のワークロード下で19.8–26.3 FPSを維持します。これは、インテグレーションレイヤーに起因する 5%未満のFPS低下 にすぎません。航空のみの構成では44.7 FPSで動作し、フライト物理エンジンが軽量であることを確認しています。

### メモリー安定性

### Figure 7: 3時間の連続実行におけるVRAM使用量。初期フェーズの平均は 3,862 MiB、後期フェーズの平均は 3,878 MiBであり、増加率はわずか ~0.4%にすぎません。

357回のスポーン/デストロイサイクルを伴う3時間の連続安定性テストの間、VRAM使用量は約3,870 MiBで安定していました。初期から後期にかけての増加は ~0.4% (16 MiB)に過ぎず、メモリリークがないことを確認しました。シミュレーションは クラッシュゼロ で完了し、本番環境レベルの信頼性を示しました。

### 通信遅延

図8: フレームごとのデータ転送比較。Bridgeベースの協調シミュレーションのレイテンシはセンサー数に比例して増加する（1～20ms）のに対し、CARLA-Airはセンサー数に関わらず<0.5msを維持する。

CARLA-Airはすべてのデータを単一プロセス内に保持するため、同時センサーの数に関係なく、フレームごとのデータ転送は 0.5 milliseconds を下回ります。対照的に、bridge-basedの共シミュレーションの遅延は線形に増加し、16センサーの場合20msに達します。個々のAPI操作（world state queries、actor spawning、image capture）は、bridgeの同等物よりも 4&ndash;10&times; faster です。

## Applications

### 代表的なアプリケーション

CARLA-Airは、共有環境で動作する空中のエージェントと地上のエージェントの両方を必要とする、幅広い研究ワークフローを可能にします。このプラットフォームの多様性を示す5つの代表的なアプリケーションを紹介します：

### 空地共同精密着陸

ドローンは、共有ワールドステートを使用して、移動する地上車両を自律的に追跡し、着陸します。このシステムは、地上クライアント（車両軌道）と空中クライアント（ドローン飛行コントローラー）の両方を制御する、統一されたPythonスクリプトを使用します。ドローンのアプローチ、降下、および着陸フェーズは、リアルタイム共有ポジショニングを通じて調整され、 0.5m以内の水平収束 を達成します。

### Figure 9: W1 workflow &mdash; 単一のPythonスクリプトが、共有のUE4プロセス内で、地上および空中からのRPCクライアントの両方を調整します。

### 図10: 高精度な着陸結果: (a) アプローチ中のカメラフレーム、(b) アプローチ→降下→着陸を示す3D軌道、(c) 標高プロファイル、(d) <0.5mに収束する水平誤差。

### W2: Embodied Navigation & VLN/VLA データ生成

CARLA-Airは、 Vision-Language Navigation (VLN) および Vision-Language-Action (VLA) モデルの訓練データを生成します。ドローンは、 "Fly across the bridge to the city center." のような自然言語の指示に従って、都市環境を航行します。このプラットフォームは、ペア化された視覚的観察と行動軌道を収集することで、研究者が空中からの視点から、視覚的なシーンと言語コマンドの両方を理解する具現化されたエージェントを訓練できるようにします。

### W3: 同期マルチモーダルデータセット収集

CARLA-Airは、空中および地上の両方からの視点から、 時間同期されたマルチモーダルデータ を同時に収集します。両方のセンサースイートが同じ物理ティック内で動作するため、データは完全にアライメントされており、事後的な同期は不要です。このプラットフォームは、両方の視点からRGB、深度、セマンティックセグメンテーション、オプティカルフロー、サーフェスノーマル、およびLiDARを含む最大 18種類のセンサーモダリティ を捉えます。

### Figure 13: CARLA-Airから得られた、地上および航空の視点からの、RGB、深度、セグメンテーション、オプティカルフローなどを含むマルチモーダルセンサー出力。

### W4: 空中・地上クロスビュー認識

このワークフローは、同じシーンの 空撮および地上レベルのビュー をマッチさせるようにモデルを訓練します。CARLA-Airは、 6つのマップ×7つの気象条件 （快晴の正午、曇り、濃霧、大雨、夜、小雨、日没）にわたる系統的なデータ収集をサポートし、ロバストなクロスビュー知覚研究のために包括的な視覚的多様性を提供します。

### Figure 14: 6つのCARLAのタウンと7つの天候条件にわたるクロスビューの認識データセットサンプルであり、ロバストな認識モデルの訓練に利用可能な環境の多様性を示しています。

### W5: 強化学習トレーニング環境

CARLA-Air は、ドローンナビゲーションタスクのための Gymnasium-compatible RL environment を提供します。観測空間には、ドローンのRGB画像、深度マップ、ポーズ情報、およびNPCの車両位置が含まれます。アクション空間は、速度コマンド（&Delta;v x 、&Delta;v y 、&Delta;v z ）を制御します。報酬関数は、目標への進行、高度ボーナス、および衝突ペナルティを組み合わせています。 r = r progress + r altitude &minus; r collision 。

Figure 15: W5 RL pipeline &mdash; CARLA-Air は、ポリシーネットワークに対し、観測空間と行動空間を提供し、ドローンと車両の近接性および衝突回避に基づいた報酬を付与する。

## Limitations

### 制限事項と今後の課題

### CARLA-Airの現行リリースは、上記で提示された5つのワークフローに対して検証されています。いくつかの制約が、アクティブなエンジニアリング目標として残っています。

### Actor density: パフォーマンスは中程度のトラフィック負荷で特徴付けられます。大規模な同時アクター人口を持つ高密度なシーンは、まだ最適化中です。

### 環境リセット： マップの切り替えは、独立したアクターのライフサイクル管理のため、完全なプロセス再起動が必要です。セッション内での段階的なリセットは、将来のリリースで計画されています。

### マルチドローンスケール: 2機を超える構成は機能的ですが、幅広いシナリオにおいて正式に検証されたわけではありません。

### 今後の方向性

近期の作業には、2つのエンジン間の物理状態同期と、より広範なエコシステム統合のための ROS 2 bridge が含まれます。長期的な目標には、大規模RLのエピソードスループットを増やすためのGPU並列マルチ環境実行（Isaac Labに類似）と、 Unreal Engine 5 への移行の可能性が含まれます。AirSimのアップストリーム開発がアーカイブされたため、CARLA-Airは、バグ修正と機能拡張を伴って、エアリアルスタックを独立して維持しています。