---
arxiv_id: 2601.03233
title: "LTX-2: 高効率な音声・映像統合基盤モデル"
authors:
  - Yoav HaCohen
  - Benny Brazowski
  - Nisan Chiprut
  - Yaki Bitterman
  - Andrew Kvochko
  - Avishai Berkowitz
  - Daniel Shalem
  - Daphna Lifschitz
  - Dudu Moshe
  - Eitan Porat
  - Eitan Richardson
  - Guy Shiran
  - Itay Chachy
  - Jonathan Chetboun
  - Michael Finkelson
  - Michael Kupchick
  - Nir Zabari
  - Nitzan Guetta
  - Noa Kotler
  - Ofir Bibi
  - Ori Gordon
  - Poriya Panet
  - Roi Benita
  - Shahar Armon
  - Victor Kulikov
  - Yaron Inger
  - Yonatan Shiftan
  - Zeev Melumian
  - Zeev Farbman
difficulty: Intermediate
tags:
  - Multimodal
  - Audio
  - Vision
published_at: 2026-01-06
flecto_url: https://flecto.zer0ai.dev/ja/papers/2601.03233/
lang: ja
---

> LTX-2: 高効率な音声・映像統合基盤モデル

**著者**: 初のオープンソースの、テキストから音声と動画を同時に生成する基盤モデル

## Introduction

### はじめに

根本的な問題点： 現在のテキストから動画への変換モデルは、視覚的に素晴らしい映像を生成するものの、音声がないという問題があります。一方、テキストから音声への変換モデルは、特定の分野（音声、音楽、または効果音など）に特化しています。 非同期のパイプライン を利用した音響・映像生成の試みは、全体的な同時分布をモデル化できておらず、唇の動きの同期や環境音といった重要な要素を見落としています。

最近のテキストから動画（T2V）の拡散モデル、例えば LTX-Video 、 WAN 2.1 、および Hunyuan Video は、テキストの指示に基づいて、視覚的にリアルで動きに一貫性のある動画を生成するという点で、目覚ましい進歩を遂げています。しかし、これらのモデルは依然として基本的な制約があり、同期された音声によって伝えられる意味、感情、および環境に関する情報を省略しています。

並行して、テキストから音声への生成技術は、タスク固有のシステムから、より汎用的な表現へと進化してきましたが、それでも多くのモデルは特定の分野に特化しており、音声生成に対する統一的なアプローチを提供しているとは言えません。

一貫性のあるオーディオビジュアル体験を実現するには、 統合モデル が必要であり、それがビジョンとサウンドの間の生成的な依存関係を同時に捉える必要があります。 Veo 3 や Sora 2 などのプロプライエタリなシステムは、この方向性を探求していますが、それらはクローズドソースです。 LTX-2 は、統合アーキテクチャを用いてこの課題に対処する、最初のオープンソースモデルです。

## Experiments

### 実験と結果

### LTX-2は、以下の3つの重要な側面から評価されます。それは、人間の主観評価によるオーディオビジュアル品質、標準的なベンチマークによる映像のみの性能、そして計算効率です。

### 視覚聴覚評価

人間の嗜好性に関する研究では、LTX-2 が オープンソースの代替手段（例えば、Ovi）と比較して、顕著に優れた性能を示す ことが示されています。さらに、LTX-2 は、 その計算コストと推論時間のほんの一部 で、プロプライエタリなモデルと同等の嗜好性を実現しています。

### ビデオのみのベンチマーク

LTX-2は、マルチモーダルモデルであるにもかかわらず、その視覚ストリームは、標準的なビデオ生成タスクにおいて トップレベルのパフォーマンス を維持しています。Artificial Analysisの公開ランキングでは、LTX-2は優れた結果を示しており、音声を追加することによってビデオの品質が低下しないことを示しています。

### 推論のパフォーマンスとスケーラビリティ

### LTX-2アーキテクチャの主な利点は、その極めて高い効率です。H100 GPU上で、Wan 2.2-14B（ビデオのみ、140億パラメータ）と比較した場合：

### H100 GPU上で、1回の拡散ステップあたりに、Wan 2.2よりも高速に処理できます。

パラメータ数が多く（19B vs 14B）、「 音声と動画を同時に生成する 」にもかかわらず、LTX-2は、1回の拡散ステップあたりで、およそ18倍高速です。この速度の優位性は、最適化された潜在空間メカニズムによるものです。

### LTX-2は、同期されたステレオ音声付きで、最大 20秒 の連続したビデオを生成できます。これは、現在のほとんどのテキストからビデオへのモデル（T2Vモデル）の制限を超えるものです。

## Conclusion

LTX-2は、以下の4つの主要な革新を通じて、LTX-Videoを拡張し、統合された視聴覚基盤モデルを実現します。具体的には、非対称なデュアルストリームトランスフォーマーアーキテクチャ、思考トークンを用いた高度なテキスト条件付けと、Gemma3 12Bからの多層特徴抽出、効率的な1次元潜在空間を持つコンパクトな因果音声VAE、そして、詳細な視聴覚制御を可能にする、モダリティを考慮したclassifier-free guidanceです。

### 実験結果によると、LTX-2はオープンソースのT2AV生成において、新たなベンチマークを確立しました。最高水準の高品質なオーディオビジュアルを提供しながら、同クラスで最も高速なモデルです。

### すべてのモデルの重みとコードは、研究の促進とオーディオビジュアルコンテンツ制作の民主化のために、 公開 されています。

## References

### 参考文献 (32件)

## Meta Description

### LTX-2は、最先端の品質と優れた効率性を備えた、テキストから音声+動画を同時に生成するための、最初のオープンソースの基盤モデルです。

## Contributions

### 主な貢献

### 非対称デュアルストリームアーキテクチャ

Transformerベースのバックボーンで、 140億パラメータのビデオストリーム と 50億パラメータのオーディオストリーム を備えており、これらは双方向のクロスアテンションと時間軸RoPEによって接続されています。この非対称な設計により、計算リソースを各モダリティの複雑さに合わせて効率的に割り当てることができます。

### 「Thinking Tokens」を用いたテキスト処理

### Gemma3 12B を使用した、多層特徴抽出と学習された「思考トークン」を備えた、高度なテキスト条件付けモジュール。これにより、生成される音声のプロンプト理解と音響的正確性が向上します。

### コンパクトなニューラル音声表現

効率的な因果関係に基づいたオーディオ VAE で、高忠実度の 1次元潜在空間 を生成し、拡散モデルを用いた学習に最適化されています。これにより、最大 20秒 の連続的なステレオオーディオを生成できます。

### モダリティを考慮した、Classifier-Free Guidance

### 革新的な双方向CFG方式であり、 テキストとクロスモーダルガイダンスの独立したスケール を使用することで、音声と映像の整合性を大幅に向上させ、同期に対するきめ細やかな制御を可能にします。

## Architecture

### アーキテクチャの概要

図1: LTX-2アーキテクチャの概要。生ビデオおよびオーディオ信号は、因果的なVAEを介して、モダリティ固有の潜在トークンにエンコードされます。一方、テキストは、改良された埋め込みパイプラインによって処理されます。非対称なデュアルストリームトランスフォーマーは、両方のモダリティを双方向のクロスアテンションで処理します。

### 疎結合潜在表現 (Decoupled Latent Representations)

ビデオとオーディオを共有の潜在空間に無理やり統合するのではなく、LTX-2は それぞれモダリティに特化したVAEを使用 します。ビデオは、空間時間因果VAEを使用し、オーディオは、メルスペクトログラムベースの1次元の潜在空間を持つ因果VAEを使用します。これにより、各エンコーダを独立して最適化できます。

### 非対称デュアルストリーム

動画と音声は、根本的に異なる情報密度を持っています。 14Bパラメータのビデオストリーム は、複雑な空間的および時間的な視覚コンテンツを処理し、一方、 5Bパラメータのオーディオストリーム は、より低次元のオーディオデータを処理します。両者は同じアーキテクチャの設計に基づいていますが、幅と深さにおいて異なります。

### クロスモーダルアテンション

モデル全体に配置された双方向クロスアテンションレイヤーにより、厳密な時間的整合が実現されます。クロスモーダルな相互作用において、 1D temporal RoPE を活用することで、モデルは、リップシンクや環境音といった依存関係を捉えながら、単一モーダルの生成品質を低下させることなく、これを実現します。

## Dual Stream

### デュアルストリームアーキテクチャの詳細

図2: (a) デュアルストリームバックボーンは、ビデオとオーディオの情報を並行して処理し、時間方向の1次元相対位置エンコーディング（RoPE）を用いた双方向のクロスアテンションによって情報を交換します。(b) シングルブロックの詳細図。自己注意（Self Attention）、テキストクロスアテンション、AVクロスアテンション、およびAdaLNによるタイムステップ条件付きフィードフォワードネットワーク（FFN）を示します。

LTX-2の中核となるのは、非対称なデュアルストリーム拡散トランスフォーマーです。その基盤は、140億パラメータを持つ高容量のビデオストリームと、50億パラメータのオーディオストリームで構成されています。両方のストリームは同じアーキテクチャ設計を採用しており、各ブロックは、Self Attention、Text Cross-Attention、Audio-Visual Cross-Attention、およびFeed-Forward Network (FFN)で構成されています。活性化を安定させるために、RMS正規化層が演算の間に挿入されています。

### 位置エンコーディング戦略

このモデルは、構造をエンコードするために Rotary Positional Embeddings (RoPE) を使用します。ビデオストリームでは、 3D RoPE が、空間次元（x、y）と時間（t）にわたって位置情報を注入します。オーディオストリームでは、 1D RoPE は、時間次元のみをエンコードします。クロスモーダルアテンション中には、RoPEの時間コンポーネントのみが使用され、これにより、クロスモーダルアテンションは、空間的な対応関係ではなく、 時間的な同期 に焦点を当てるように強制されます。

## Cross Attention Viz

### 音声・映像のクロスアテンション

図3： 注目機構のクロスアテンションマップの可視化。アテンションヘッドおよびモデル層にわたって平均化されたものです。V2Aマップは、音声がビデオフレームにどのように注目しているかを示し、A2Vマップは、ビデオが音声セグメントにどのように注目しているかを示します。シナリオには、車が通り過ぎる様子、拍手を含む音声、複数の話者がいる会話、およびウェルカムメッセージが含まれます。

各層において、音声視覚クロスアテンションモジュールは、ストリーム間で 双方向の情報伝達 を可能にします。可視化の結果から、モデルが音声イベントとそれに対応する視覚的な要素を正しく関連付けていることが示されています。具体的には、車のエンジン音は車両に集中し、音声波形は唇の動きと一致し、拍手のタイミングは手拍子と一致しています。

## Text Conditioning

### 深層テキスト条件付けとシンキングトークン

図4： テキスト理解パイプライン。テキストプロンプトはGemma3 12Bによってエンコードされ、多層の活性化は特徴抽出器を通過し、学習された思考トークンと組み合わされ、テキストコネクタトランスフォーマーブロックによって洗練されます。

### マルチレイヤー特徴抽出器

LLMの最終的な因果関係層に依存するのではなく、LTX-2は すべてのデコーダ層 にわたって特徴を抽出します。中間表現は、初期の層における低レベルの音声学から、後期の層における高レベルの語義まで、より広範な言語学的特徴を捉えます。この抽出プロセスは、3つのステップで構成されます。

### 平均値中心化のスケーリング が、各レイヤーにおけるシーケンスと埋め込みの次元方向の中間出力に適用されます。

### 出力されたデータは、形状 [B, T, D × L] の表現に変換（flatten）されます。

### この高次元表現は、学習可能な密な投影行列 *W* を使用して、目標次元 *D* に 投影 されます。その後、これらのパラメータは共同で最適化され、固定されます。

投影行列 W は、LTX-2 モデルと共に、標準的な拡散 MSE 損失関数を用いた短い初期トレーニング段階で最適化されました。これにより、モデルのプロンプトへの適合性と、全体的な生成品質が向上しました。

### Thinking Tokens

「register tokens」に触発されたLTX-2は、テキスト埋め込みに付加される learned thinking tokens （プロンプトごとにR個）を導入しています。これらのトークンと元の埋め込みは、2つのTransformerブロックで構成される Text Connector モジュールを通して同時に処理されます。これにより、拡散Transformerに条件付けを行う前に、より豊かなトークン間の相互作用とコンテキストの混合が可能になり、生成品質が大幅に向上します。

## Audio Vae

### Audio VAEと潜在空間

### Audio VAE

LTX-Videoの効率的な深層潜在空間に着想を得て、LTX-2はコンパクトな因果的オーディオVAEを採用しています。これは メロスペクトログラムの入力 を処理し、それらを1次元の潜在トークンにエンコードします。このコンパクトな表現により、効率的な拡散ベースの学習が可能になりながら、高忠実度のオーディオ再構成品質を維持します。

### ボコーダー

最終的な波形は、 HiFi-GAN アーキテクチャをベースとしたボコーダーを使用して再構成されます。このボコーダーは、ステレオ合成とアップサンプリングを共同で行うように改良されています。これにより、デコードされたメルスペクトログラムが直接、高品質なステレオ波形に変換されます。

## Inference

### モダリティを考慮した、分類器フリー・ガイダンス（Classifier-Free Guidance, CFG）

### 図5： 独立したテキスト (s t ) とクロスモーダル (s m ) コントロールスケールを用いた、マルチモーダルの Classifier-Free Guidance。

推論時、LTX-2は、テキストプロンプトに対する高い忠実性を維持しながら、クロスモーダルの一貫性と同期を高めるために、Classifier-free Guidance (CFG)のマルチモーダル拡張を利用します。

s t はテキストによる誘導の強さを制御し、s m はクロスモーダル誘導の強さを制御します。s m を大きくすると、モダリティ間の相互情報量の改善が促進され、より強力なクロスモーダル誘導により、 より正確な口の動きの同期 と、より一貫性のある効果音の配置が可能になります。

### マルチスケール、マルチタイル推論

### ベース生成

### 推論は、より低い解像度から開始され、約 0.5メガピクセル の基本潜在表現を生成します。これにより、全体的な構造、動き、および音声コンテンツを、処理負荷を抑えた状態で捉えることができます。

### 潜在空間のアップスケーリング

### 専用の潜在空間アップスケーラーは、動画の潜在空間の空間解像度を向上させながら、 時間的な一貫性 と音声の同期を維持します。

### タイル精緻化

### アップスケールされた潜在表現は、重なる空間的および時間的なタイルに分割されます。各タイルは個別に最適化され、最終的な出力で 1080pの画質 を実現します。

## Training

### トレーニングデータとキャプション

### トレーニングデータ

LTX-2は、LTX-Videoデータセットのサブセットを使用しており、 重要で有益な音声 を含むビデオクリップのみが選択されています。このデータセットでは、音声が意味的に重要である&mdash; つまり、単なる背景ノイズではなく、音声、環境音、および音楽要素が含まれる&mdash; ビデオに焦点を当てています。

### キャプション生成システム

新しいビデオ字幕システムが開発されました。このシステムは、 視覚的なコンテンツと音声コンテンツの両方 を説明するものです。字幕は、詳細かつ客観的であり、見たものと聞こえたものを記述するだけで、感情的な解釈は含まれていません。

## Related Work

### 関連研究

### 拡散型トランスフォーマー (Diffusion Transformers, DiTs)

Diffusion Transformersは、大規模な生成モデルのための統一的なアーキテクチャとして登場しました。PeeblesとXieによって導入されたDiTsは、畳み込みU-NetをTransformerブロックに置き換えることで、より優れたスケーラビリティと、より表現力豊かな潜在空間処理を可能にしています。

### 音声と動画の生成

LTX-Video や WAN 2.1 などのテキストから動画を生成するモデルは、大規模な動画データセットで学習された DiT アーキテクチャの強力さを示しています。 A2V や V2A といったアプローチを通じて、音声と映像の分離合成が検討されています。 MMAudio や Ovi といった、音声と映像を同時に扱う T2AV モデルは最先端ですが、真に一貫性のある音声と映像を実現するという課題に直面しています。

### テキスト条件付け

テキスト条件化は、ゼロからエンコーダーを学習させる方法から、T5のような事前学習済みのエンコーダーを活用する方法へと進化し、最近では、多層の特徴抽出を行うデコーダーのみのLLMを使用する方法へと発展してきました。LTX-2は、この流れに沿って、新しい多層特徴抽出器とトークン処理を搭載したGemma3 12Bを使用しています。

## Limitations

### 制約事項

言語ごとのパフォーマンスは異なります: 英語を中心とした、十分にデータが揃っている言語でのプロンプトは、より良い結果をもたらします。あまり一般的ではない言語では、パフォーマンスが制限される可能性があります。

### 音声品質の課題： 複雑な音楽構成や、重なり合った発言が多数含まれる音声は、依然として課題が残っています。

### 時間的範囲： 生成されるコンテンツは、最大20秒の連続した内容に制限されます。

### トレーニングデータのバイアス： モデルの生成多様性は、トレーニングデータセットに存在するバイアスによって影響を受ける可能性があります。

## Social Impact

### 社会への影響

テキストから音声と動画を生成する技術は、コンテンツクリエイター、教育者、およびアクセシビリティツールに役立ちます。LTX-2のようなモデルは、 高品質な映像コンテンツの制作をより身近なものにし、個人や小規模チームでもプロレベルのメディア制作を可能にする ことができます。

現実的な合成メディアは、 ディープフェイクや偽情報 など、悪用される可能性を秘めています。責任ある利用のためには、透かしの挿入、コンテンツの出所追跡、およびAIによって生成されたコンテンツの明示的な開示といった対策が必要です。

## Supplementary

### 補足図 (2図)

図A1: LTX-2の学習と推論パイプライン。(a) 学習：音声と映像の入力が潜在表現にエンコードされ、モデルがノイズ除去を学習します。(b) 推論：モデルがノイズからノイズを除去し、その後、音声（VAEデコーダ＋ボコーダ経由）と映像（VAEデコーダ経由）にデコードします。

図 A2: 単一のストリームの詳細なビュー。オーディオとビデオのストリームは、アーキテクチャが同一であり、RMS Norm、RoPEによるSelf Attention、Text Cross Attention、AV Cross Attention、およびAdaLNタイムステップ条件付きのFFNを備えています。
