LTX-2: 高効率な音声・映像統合基盤モデル

はじめに

根本的な問題点： 現在のテキストから動画への変換モデルは、視覚的に素晴らしい映像を生成するものの、音声がないという問題があります。一方、テキストから音声への変換モデルは、特定の分野（音声、音楽、または効果音など）に特化しています。非同期のパイプラインを利用した音響・映像生成の試みは、全体的な同時分布をモデル化できておらず、唇の動きの同期や環境音といった重要な要素を見落としています。

最近のテキストから動画（T2V）の拡散モデル、例えばLTX-Video、WAN 2.1、およびHunyuan Videoは、テキストの指示に基づいて、視覚的にリアルで動きに一貫性のある動画を生成するという点で、目覚ましい進歩を遂げています。しかし、これらのモデルは依然として基本的な制約があり、同期された音声によって伝えられる意味、感情、および環境に関する情報を省略しています。

並行して、テキストから音声への生成技術は、タスク固有のシステムから、より汎用的な表現へと進化してきましたが、それでも多くのモデルは特定の分野に特化しており、音声生成に対する統一的なアプローチを提供しているとは言えません。

一貫性のあるオーディオビジュアル体験を実現するには、統合モデルが必要であり、それがビジョンとサウンドの間の生成的な依存関係を同時に捉える必要があります。 Veo 3 や Sora 2 などのプロプライエタリなシステムは、この方向性を探求していますが、それらはクローズドソースです。 LTX-2 は、統合アーキテクチャを用いてこの課題に対処する、最初のオープンソースモデルです。

主な貢献

🏗

非対称デュアルストリームアーキテクチャ

Transformerベースのバックボーンで、140億パラメータのビデオストリームと50億パラメータのオーディオストリームを備えており、これらは双方向のクロスアテンションと時間軸RoPEによって接続されています。この非対称な設計により、計算リソースを各モダリティの複雑さに合わせて効率的に割り当てることができます。

💬

「Thinking Tokens」を用いたテキスト処理

Gemma3 12Bを使用した、多層特徴抽出と学習された「思考トークン」を備えた、高度なテキスト条件付けモジュール。これにより、生成される音声のプロンプト理解と音響的正確性が向上します。

🎵

コンパクトなニューラル音声表現

効率的な因果関係に基づいたオーディオ VAE で、高忠実度の 1次元潜在空間 を生成し、拡散モデルを用いた学習に最適化されています。これにより、最大 20秒 の連続的なステレオオーディオを生成できます。

🎯

モダリティを考慮した、Classifier-Free Guidance

革新的な双方向CFG方式であり、テキストとクロスモーダルガイダンスの独立したスケールを使用することで、音声と映像の整合性を大幅に向上させ、同期に対するきめ細やかな制御を可能にします。

なぜ非対称なのか？ 映画製作のチームを考えてみましょう。映像を撮影するには、音声の収録よりもはるかに多くのスタッフが必要です。同様に、映像データははるかに複雑です（空間的な次元 x, y と時間を含みます）。そのため、処理にはより大きなニューラルネットワーク（140億パラメータ）が必要です。一方、音声は単純です（1次元の時間信号のみ）。そのため、より小さなネットワーク（50億パラメータ）で十分です。これにより、品質を損なうことなく計算リソースを節約できます。

アーキテクチャの概要

LTX-2 Architecture Overview — **図1:** LTX-2アーキテクチャの概要。生ビデオおよびオーディオ信号は、因果的なVAEを介して、モダリティ固有の潜在トークンにエンコードされます。一方、テキストは、改良された埋め込みパイプラインによって処理されます。非対称なデュアルストリームトランスフォーマーは、両方のモダリティを双方向のクロスアテンションで処理します。

疎結合潜在表現 (Decoupled Latent Representations)

ビデオとオーディオを共有の潜在空間に無理やり統合するのではなく、LTX-2はそれぞれモダリティに特化したVAEを使用します。ビデオは、空間時間因果VAEを使用し、オーディオは、メルスペクトログラムベースの1次元の潜在空間を持つ因果VAEを使用します。これにより、各エンコーダを独立して最適化できます。

非対称デュアルストリーム

動画と音声は、根本的に異なる情報密度を持っています。14Bパラメータのビデオストリームは、複雑な空間的および時間的な視覚コンテンツを処理し、一方、5Bパラメータのオーディオストリームは、より低次元のオーディオデータを処理します。両者は同じアーキテクチャの設計に基づいていますが、幅と深さにおいて異なります。

クロスモーダルアテンション

モデル全体に配置された双方向クロスアテンションレイヤーにより、厳密な時間的整合が実現されます。クロスモーダルな相互作用において、1D temporal RoPEを活用することで、モデルは、リップシンクや環境音といった依存関係を捉えながら、単一モーダルの生成品質を低下させることなく、これを実現します。

RoPE (Rotary Positional Embeddings) とは何ですか？ ニューラルネットワークは、データをトークンのシーケンスとして処理しますが、各トークンの位置を本質的に認識しているわけではありません。 RoPE は、埋め込みベクトルを回転させることで位置情報をエンコードする、洗練された技術です。動画の場合、LTX-2 は 3D RoPE (x, y、および時間位置をエンコード) を使用します。音声の場合、1D RoPE (時間のみをエンコード) を使用します。 2 つのストリームがクロスアテンションを介して相互作用する場合、時間コンポーネントのみが重要であり、これにより時間的な同期が維持されます。

デュアルストリームアーキテクチャの詳細

Dual-Stream Architecture — **図2:** (a) デュアルストリームバックボーンは、ビデオとオーディオの情報を並行して処理し、時間方向の1次元相対位置エンコーディング（RoPE）を用いた双方向のクロスアテンションによって情報を交換します。(b) シングルブロックの詳細図。自己注意（Self Attention）、テキストクロスアテンション、AVクロスアテンション、およびAdaLNによるタイムステップ条件付きフィードフォワードネットワーク（FFN）を示します。

LTX-2の中核となるのは、非対称なデュアルストリーム拡散トランスフォーマーです。その基盤は、140億パラメータを持つ高容量のビデオストリームと、50億パラメータのオーディオストリームで構成されています。両方のストリームは同じアーキテクチャ設計を採用しており、各ブロックは、Self Attention、Text Cross-Attention、Audio-Visual Cross-Attention、およびFeed-Forward Network (FFN)で構成されています。活性化を安定させるために、RMS正規化層が演算の間に挿入されています。

位置エンコーディング戦略

このモデルは、構造をエンコードするためにRotary Positional Embeddings (RoPE)を使用します。ビデオストリームでは、3D RoPEが、空間次元（x、y）と時間（t）にわたって位置情報を注入します。オーディオストリームでは、1D RoPEは、時間次元のみをエンコードします。クロスモーダルアテンション中には、RoPEの時間コンポーネントのみが使用され、これにより、クロスモーダルアテンションは、空間的な対応関係ではなく、時間的な同期に焦点を当てるように強制されます。

ポシショナルエンコーディングの設計に関する理解

ここで重要なのは、どのような情報がいつ重要になるか、ということです。

動画内：空間上の位置 (x, y) と時間 (t) がすべて重要です。例えば、5フレーム目の位置 (100, 200) にいる顔は、10フレーム目の位置 (300, 400) にいる顔とは異なります。
音声内：時間のみが重要です。音声は1次元の信号であり、波形に「空間的な位置」はありません。
モダリティ間：音声と動画を同期させる場合、時間的な整合性のみが重要です。手のすべし音は、手が合わさっているフレームと一致している必要があります。手の位置がフレームのどこにあっても、これは変わりません。そのため、クロスアテンションでは、時間的なRoPEコンポーネントのみを使用します。

音声・映像のクロスアテンション

AV Cross-Attention Maps — **図3：** 注目機構のクロスアテンションマップの可視化。アテンションヘッドおよびモデル層にわたって平均化されたものです。V2Aマップは、音声がビデオフレームにどのように注目しているかを示し、A2Vマップは、ビデオが音声セグメントにどのように注目しているかを示します。シナリオには、車が通り過ぎる様子、拍手を含む音声、複数の話者がいる会話、およびウェルカムメッセージが含まれます。

各層において、音声視覚クロスアテンションモジュールは、ストリーム間で双方向の情報伝達を可能にします。可視化の結果から、モデルが音声イベントとそれに対応する視覚的な要素を正しく関連付けていることが示されています。具体的には、車のエンジン音は車両に集中し、音声波形は唇の動きと一致し、拍手のタイミングは手拍子と一致しています。

これらのアテンションマップは何を示しているのか？ 各ヒートマップは、モデルが一方のモダリティを処理する際に、「何に注目しているか」を示します。V2Aマップにおけるホットスポットは、特定のオーディオセグメントを生成する際に、どのビデオフレームが最も関連性があるかを示します。例えば、車の走行音を生成する際に、モデルは車の映像が映っているビデオフレームに強く注意を払います。このような双方向のアテンションが、生成されたオーディオが自然で、かつ同期した音になることを可能にしています。

深層テキスト条件付けとシンキングトークン

Text Understanding Pipeline — **図4：** テキスト理解パイプライン。テキストプロンプトはGemma3 12Bによってエンコードされ、多層の活性化は特徴抽出器を通過し、学習された思考トークンと組み合わされ、テキストコネクタトランスフォーマーブロックによって洗練されます。

マルチレイヤー特徴抽出器

LLMの最終的な因果関係層に依存するのではなく、LTX-2はすべてのデコーダ層にわたって特徴を抽出します。中間表現は、初期の層における低レベルの音声学から、後期の層における高レベルの語義まで、より広範な言語学的特徴を捉えます。この抽出プロセスは、3つのステップで構成されます。

平均値中心化のスケーリングが、各レイヤーにおけるシーケンスと埋め込みの次元方向の中間出力に適用されます。
出力されたデータは、形状 [B, T, D × L] の表現に変換（flatten）されます。
この高次元表現は、学習可能な密な投影行列 *W* を使用して、目標次元 *D* に投影されます。その後、これらのパラメータは共同で最適化され、固定されます。

投影行列 W は、LTX-2 モデルと共に、標準的な拡散 MSE 損失関数を用いた短い初期トレーニング段階で最適化されました。これにより、モデルのプロンプトへの適合性と、全体的な生成品質が向上しました。

なぜ、最後の層だけでなく、すべての層から抽出するのですか？ 大規模言語モデルは、テキストを多数の層を通して処理し、各層が異なる情報を捉えます。初期の層は、音韻や文字パターンなどの低レベルの特徴を捉え（これは、リアルな音声を生成するために重要です）。中間層は、構文や単語の関係を捉えます。後期の層は、高レベルの意味論と意味を捉えます。すべての層から情報を抽出し組み合わせることで、LTX-2は、最終層の出力のみを使用するモデルよりも、プロンプトをはるかに深く理解することができます。

Thinking Tokens

「register tokens」に触発されたLTX-2は、テキスト埋め込みに付加されるlearned thinking tokens（プロンプトごとにR個）を導入しています。これらのトークンと元の埋め込みは、2つのTransformerブロックで構成されるText Connectorモジュールを通して同時に処理されます。これにより、拡散Transformerに条件付けを行う前に、より豊かなトークン間の相互作用とコンテキストの混合が可能になり、生成品質が大幅に向上します。

Thinking Tokens の説明

数学の問題を解いているとき、最終的な答えを出す前に「下書き」を書くことを想像してみてください。“Thinking tokens” はこれと似たような仕組みで動作します。これらは、モデルが情報を「思考」し、生成を行う前に、情報を組み合わせるための追加の学習可能なパラメータです。

具体的には、R 個の追加トークン（初期値は学習済み）がテキストの埋め込みベクトルに付加され、トランスフォーマーブロックを通してまとめて処理されます。これらのトークンは、入力テキストに対応するものではなく、代わりに、モデルがテキスト表現を組み合わせ、洗練させるための計算領域として機能します。この概念は、ビジョントランスフォーマーで使用されている register tokens からインスピレーションを得ています。

Audio VAEと潜在空間

Audio VAE

LTX-Videoの効率的な深層潜在空間に着想を得て、LTX-2はコンパクトな因果的オーディオVAEを採用しています。これはメロスペクトログラムの入力を処理し、それらを1次元の潜在トークンにエンコードします。このコンパクトな表現により、効率的な拡散ベースの学習が可能になりながら、高忠実度のオーディオ再構成品質を維持します。

ボコーダー

最終的な波形は、HiFi-GANアーキテクチャをベースとしたボコーダーを使用して再構成されます。このボコーダーは、ステレオ合成とアップサンプリングを共同で行うように改良されています。これにより、デコードされたメルスペクトログラムが直接、高品質なステレオ波形に変換されます。

推論

モダリティを考慮した、分類器フリー・ガイダンス（Classifier-Free Guidance, CFG）

Multimodal CFG Diagram — **図5：**独立したテキスト (s_t) とクロスモーダル (s_m) コントロールスケールを用いた、マルチモーダルの Classifier-Free Guidance。

推論時、LTX-2は、テキストプロンプトに対する高い忠実性を維持しながら、クロスモーダルの一貫性と同期を高めるために、Classifier-free Guidance (CFG)のマルチモーダル拡張を利用します。

$$M'(x,t,m) = M(x,t,m) + s_t \cdot \bigl(M(x,t,m) - M(x,\varnothing,m)\bigr) + s_m \cdot \bigl(M(x,t,m) - M(x,t,\varnothing)\bigr)$$

s_t はテキストによる誘導の強さを制御し、s_m はクロスモーダル誘導の強さを制御します。s_m を大きくすると、モダリティ間の相互情報量の改善が促進され、より強力なクロスモーダル誘導により、より正確な口の動きの同期 と、より一貫性のある効果音の配置が可能になります。

モダリティ認識CFGの理解

Classifier-Free Guidance (CFG) は、生成品質を向上させるために広く使用されている技術です。基本的なアイデアは、推論時にモデルが2つの予測を行うことです。1つはテキストプロンプトに基づいており、もう1つは条件なしの予測です。この2つの予測の差を増幅させることで、出力がプロンプトで記述されている内容により近づきます。

LTX-2は、これに加えて2つの異なるガイダンススケールを導入しています。

s_t (テキストガイダンス): 出力がテキストプロンプトにどの程度忠実であるかを制御します。値が高いほど、プロンプトに忠実な出力になります。
s_m (クロスモーダルガイダンス): 音声と映像が互いにどの程度影響し合うかを制御します。値が高いほど、同期が強くなります（例：より正確な口の動きの同期）。

この分離により、「私の記述にどの程度合致しているか？」と「音声と映像はどの程度同期しているか？」を個別に調整できます。これは、単一スケールのCFGと比較して大きな利点です。

マルチスケール、マルチタイル推論

ベース生成

推論は、より低い解像度から開始され、約0.5メガピクセルの基本潜在表現を生成します。これにより、全体的な構造、動き、および音声コンテンツを、処理負荷を抑えた状態で捉えることができます。

潜在空間のアップスケーリング

専用の潜在空間アップスケーラーは、動画の潜在空間の空間解像度を向上させながら、時間的な一貫性と音声の同期を維持します。

タイル精緻化

アップスケールされた潜在表現は、重なる空間的および時間的なタイルに分割されます。各タイルは個別に最適化され、最終的な出力で1080pの画質を実現します。

なぜタイルを使用するのか？ フル1080pビデオを一度に生成するには、非常に大きなGPUメモリが必要になります。代わりに、LTX-2はまず低解像度の「下書き」を生成し、それを拡大し、次に重なる領域（タイル）を個別に調整します。この重なりにより、タイル間のスムーズな移行が保証されます。これは、画像編集ソフトが大きな写真をパッチごとに処理する方法と似ており、利用可能なハードウェアで高解像度の出力を可能にする実用的な技術です。

トレーニングデータとキャプション

トレーニングデータ

LTX-2は、LTX-Videoデータセットのサブセットを使用しており、重要で有益な音声を含むビデオクリップのみが選択されています。このデータセットでは、音声が意味的に重要である— つまり、単なる背景ノイズではなく、音声、環境音、および音楽要素が含まれる— ビデオに焦点を当てています。

キャプション生成システム

新しいビデオ字幕システムが開発されました。このシステムは、視覚的なコンテンツと音声コンテンツの両方を説明するものです。字幕は、詳細かつ客観的であり、見たものと聞こえたものを記述するだけで、感情的な解釈は含まれていません。

実験と結果

LTX-2は、以下の3つの重要な側面から評価されます。それは、人間の主観評価によるオーディオビジュアル品質、標準的なベンチマークによる映像のみの性能、そして計算効率です。

視覚聴覚評価

人間の嗜好性に関する研究では、LTX-2 が オープンソースの代替手段（例えば、Ovi）と比較して、顕著に優れた性能を示すことが示されています。さらに、LTX-2 は、その計算コストと推論時間のほんの一部で、プロプライエタリなモデルと同等の嗜好性を実現しています。

ビデオのみのベンチマーク

LTX-2は、マルチモーダルモデルであるにもかかわらず、その視覚ストリームは、標準的なビデオ生成タスクにおいてトップレベルのパフォーマンスを維持しています。Artificial Analysisの公開ランキングでは、LTX-2は優れた結果を示しており、音声を追加することによってビデオの品質が低下しないことを示しています。

推論のパフォーマンスとスケーラビリティ

LTX-2アーキテクチャの主な利点は、その極めて高い効率です。H100 GPU上で、Wan 2.2-14B（ビデオのみ、140億パラメータ）と比較した場合：

Table 1: Inference Speed — Time per diffusion step on H100 GPU
Model	Modality	Params	Sec/Step
Wan 2.2-14B	Video Only	14B	22.30s
LTX-2	Audio + Video	19B	1.22s

~18x H100 GPU上で、1回の拡散ステップあたりに、Wan 2.2よりも高速に処理できます。

パラメータ数が多く（19B vs 14B）、「音声と動画を同時に生成する」にもかかわらず、LTX-2は、1回の拡散ステップあたりで、およそ18倍高速です。この速度の優位性は、最適化された潜在空間メカニズムによるものです。

18倍の速度向上が直感に反するように見える — LTX-2はより多くのパラメータ（19B vs 14B）を持ち、音声と動画の両方を生成するにもかかわらず、18倍高速です。その秘訣は最適化された潜在空間にあります。動画と音声を処理する前に、非常にコンパクトな潜在表現にエンコードすることで、実際の計算ははるかに小さいテンソルで行われます。これは、ファイルを送信する前に圧縮することに似ています。圧縮ステップは作業を追加しますが、主要なタスクでの節約はそれをはるかに上回ります。

LTX-2は、同期されたステレオ音声付きで、最大20秒の連続したビデオを生成できます。これは、現在のほとんどのテキストからビデオへのモデル（T2Vモデル）の制限を超えるものです。

人間による評価実験（human preference studies）は、生成モデルを評価するための最も信頼性の高い指標とみなされています。なぜなら、自動評価指標は、しばしば知覚的な品質を十分に捉えられないからです。これらの実験では、人間の評価者が、異なるモデルからの出力結果を並べて比較し、どちらが好みかを判断します。LTX-2が、プロプライエタリなモデル（Veo 3やSora 2など）と同等の性能を達成しながら、オープンソースであり、さらに高速であることは、非常に重要な成果です。

制約事項

言語ごとのパフォーマンスは異なります: 英語を中心とした、十分にデータが揃っている言語でのプロンプトは、より良い結果をもたらします。あまり一般的ではない言語では、パフォーマンスが制限される可能性があります。
音声品質の課題： 複雑な音楽構成や、重なり合った発言が多数含まれる音声は、依然として課題が残っています。
時間的範囲： 生成されるコンテンツは、最大20秒の連続した内容に制限されます。
トレーニングデータのバイアス： モデルの生成多様性は、トレーニングデータセットに存在するバイアスによって影響を受ける可能性があります。

社会への影響

機会

テキストから音声と動画を生成する技術は、コンテンツクリエイター、教育者、およびアクセシビリティツールに役立ちます。LTX-2のようなモデルは、高品質な映像コンテンツの制作をより身近なものにし、個人や小規模チームでもプロレベルのメディア制作を可能にすることができます。

課題

現実的な合成メディアは、ディープフェイクや偽情報など、悪用される可能性を秘めています。責任ある利用のためには、透かしの挿入、コンテンツの出所追跡、およびAIによって生成されたコンテンツの明示的な開示といった対策が必要です。

結論

LTX-2は、以下の4つの主要な革新を通じて、LTX-Videoを拡張し、統合された視聴覚基盤モデルを実現します。具体的には、非対称なデュアルストリームトランスフォーマーアーキテクチャ、思考トークンを用いた高度なテキスト条件付けと、Gemma3 12Bからの多層特徴抽出、効率的な1次元潜在空間を持つコンパクトな因果音声VAE、そして、詳細な視聴覚制御を可能にする、モダリティを考慮したclassifier-free guidanceです。

実験結果によると、LTX-2はオープンソースのT2AV生成において、新たなベンチマークを確立しました。最高水準の高品質なオーディオビジュアルを提供しながら、同クラスで最も高速なモデルです。

すべてのモデルの重みとコードは、研究の促進とオーディオビジュアルコンテンツ制作の民主化のために、公開されています。

補足図 (2図)

Training and Inference Pipelines — **図A1:** LTX-2の学習と推論パイプライン。(a) 学習：音声と映像の入力が潜在表現にエンコードされ、モデルがノイズ除去を学習します。(b) 推論：モデルがノイズからノイズを除去し、その後、音声（VAEデコーダ＋ボコーダ経由）と映像（VAEデコーダ経由）にデコードします。

Single-Stream Architecture Detail — **図 A2:** 単一のストリームの詳細なビュー。オーディオとビデオのストリームは、アーキテクチャが同一であり、RMS Norm、RoPEによるSelf Attention、Text Cross Attention、AV Cross Attention、およびAdaLNタイムステップ条件付きのFFNを備えています。

参考文献 (32件)

Benita et al. CAFA: A Controllable Automatic Foley Artist. arXiv:2504.06778, 2025.
Cheng et al. MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis. ICML, 2025.
Dar et al. Analyzing Transformers in Embedding Space. ACL, 2023.
Darcet et al. Vision Transformers Need Registers. arXiv:2309.16588, 2023.
Esser et al. Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. ICML, 2024.
Gao et al. Kling 1.6: A Universal Media Generation System. arXiv:2507.10898, 2025.
Gao et al. WAN-S2V: Audio-Driven Cinematic Video Generation. arXiv:2506.06033, 2025.
Google DeepMind. Veo 3: A Diffusion-Based Audio+Video Generation System. 2025.
Guan et al. Taming Text-to-Sounding Video Generation. 2025.
Gutflaish et al. Generating an Image from 1,000 Representations. arXiv:2502.14148, 2025.
HaCohen et al. LTX-Video: Realtime Video Latent Diffusion. arXiv:2501.00103, 2024.
Ho and Salimans. Classifier-Free Diffusion Guidance. arXiv:2207.12598, 2022.
Kong et al. HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis. NeurIPS, 2020.
Kong et al. HunyuanVideo: A Systematic Framework for Large Video Generative Models. arXiv:2412.03603, 2024.
Lipman et al. Flow Matching for Generative Modeling. arXiv:2210.02747, 2022.
Liu et al. Playground v3: Improving Text-to-Image Alignment with Deep Text Understanding. 2024.
Liu et al. AudioLDM: Text-to-Audio Generation with Latent Diffusion Models. ICML, 2023.
Liu et al. AudioLDM 2: Learning Holistic Audio Generation. IEEE/ACM TASLP, 2024.
Luo et al. Diff-Foley: Synchronized Video-to-Audio Synthesis. NeurIPS, 2024.
Nichol et al. GLIDE: Towards Photorealistic Image Generation and Editing. ICML, 2022.
OpenAI. Sora 2 is here. 2025.
Pan et al. Transfer Between Modalities with MetaQueries. NeurIPS, 2024.
Peebles and Xie. Scalable Diffusion Models with Transformers. ICCV, 2023.
Character.AI Research. Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation. arXiv:2510.01284, 2025.
Saharia et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. NeurIPS, 2022.
Skean et al. Layer by Layer: Uncovering Hidden Representations in Language Models. arXiv:2502.04975, 2025.
Gemma Team. Gemma 3 Technical Report. arXiv:2503.19786, 2025.
Team Wan et al. WAN: Open and Advanced Large-Scale Video Generative Models. arXiv:2503.20314, 2025.
Wang et al. A Comprehensive Study of Decoder-Only LLMs for Text-to-Image Generation. CVPR, 2025.
Wen et al. Efficient Vision-Language Models by Summarizing Visual Tokens. arXiv:2410.14072, 2024.
Xie et al. SANA: Efficient High-Resolution Image Synthesis. ICML, 2025.
Zhang et al. FoleyCrafter: Bring Silent Videos to Life. arXiv:2407.01494, 2024.