Voxtral TTS

表現力豊かな多言語テキスト読み上げモデルであり、わずか3秒の参照音声から自然な音声を生成します。

主要な音声の採用率
ElevenLabs Flash v2.5との比較

音声クローンの採用率
ElevenLabs Flash v2.5との比較

概要

本稿では、Voxtral TTSを紹介します。Voxtral TTSは、わずか3秒の参照音声から自然な音声を生成する、表現力豊かな多言語テキスト読み上げモデルです。Voxtral TTSは、意味的な音声トークンの自己回帰的な生成と、音響トークンに対するフローマッチングを組み合わせたハイブリッドアーキテクチャを採用しています。これらのトークンは、ハイブリッドのVQ-FSQ量子化方式でトレーニングされた音声トークナイザーであるVoxtral Codecを使用してエンコードおよびデコードされます。

ネイティブスピーカーによる人間評価において、Voxtral TTSは、その自然さと表現力から、多言語音声クローニングにおいて好まれる結果を示し、ElevenLabs Flash v2.5と比較して68.4%の勝率を達成しました。モデルの重みは、CC BY-NCライセンスの下で公開されます。

「ゼロショット音声クローニングにおいて、ElevenLabs Flash v2.5と比較して68.4%の勝率。9言語で好まれる。」

「ゼロショット音声クローニング」とは？

従来のTTSシステムでは、説得力のある声の模倣を行うために話者の録音音声を数時間分必要としました。ゼロショット音声クローニングとは、わずかな短いクリップ（ここでは最短3秒）だけを与えて、そのファインチューニングなしに新しいテキストをその声で読み上げることです。モデルは数千の話者で訓練することで汎化し、参照音声から「声の指紋」を抽出して任意のテキストに適用する能力を学習します。

人間による評価結果

勝率の棒グラフ: Voxtral TTS vs ElevenLabs Flash v2.5。主要な音声: 58.3% vs 41.7%。音声クローン: 68.4% vs 31.6%。 — **図1:** 人間による評価において、Voxtral TTSはElevenLabs Flash v2.5よりも好まれる。勝率は、主要な音声（デフォルト音声）と音声クローン（3秒の参照クリップ）の2つのカテゴリで示されている。77種類のユニークなテキストサンプルを使用し、ネイティブスピーカーの評価者が音声を聞いて評価を行った。

独立した人間による評価

77種類のユニークなテキストサンプルを、各言語のネイティブスピーカーが評価。
主要な音声: 同じ性別とアクセントのデフォルト音声を比較。
音声クローン: 3秒の参照クリップを提供し、評価者は類似性と自然さを評価。
評価者は「やや良い」「非常に良い」、または「どちらも良い」のいずれかを選択し、同数の場合は勝率から除外。
Voxtral TTSは、主要な音声の比較において58.3%で好まれる。
Voxtral TTSは、音声クローンの比較において68.4%で好まれる。

モデルアーキテクチャ

Voxtral TTSは、革新的なオーディオコーデック（Voxtralコーデック）と、自己回帰デコーダバックボーンで構成されています。コーデックは、参照音声サンプルを12.5 Hzのオーディオトークンにエンコードします。各フレームは、 1つの意味トークンと36個の音響トークンで構成されます。デコーダは、意味トークンを自己回帰的に生成し、軽量なフローマッチングトランスフォーマーが、デコーダの状態に基づいて音響トークンを予測します。コーデックデコーダは、出力トークンを対応する音声波形にマッピングします。

意味トークンと音響トークン — なぜ両方必要か？

意味トークン（1フレームあたり1個、VQコードブックサイズ8192）：何が話されているかを捉えます。音素・韻律・言語内容。WhisperASRから蒸留されており、テキストに対応。自己回帰バックボーンがLLMのようにこれらを一つずつ生成します。
音響トークン（1フレームあたり36個、FSQ 21レベル）：どのように聞こえるかを捉えます。声の音色・息遣い・微細な共鳴。フローマッチング変換器が36個を同時に予測し、単一のVQコードブックでは表現できない高精度な音声の細部を回復します。
なぜ12.5 Hz？各フレームは80msの音声をカバーします。37トークン×12.5フレーム/秒＝462トークン/秒。音質を犠牲にせず自己回帰生成に適したサイズです。

Voxtralコーデック

24 kHzのモノラルオーディオを、12.5 Hzのフレームで構成される37個の離散トークン（意味トークン： VQコードブックサイズ8192、音響トークン： FSQ、21レベル）に圧縮する、畳み込みトランスフォーマーオートエンコーダです。ビットレートは2.14 kbpsです。

意味コンポーネントは、教師あり学習のWhisper ASRモデルから、ソフトアライメントコサイン距離損失を用いて抽出されます。これにより、強制アライメントなしでテキストに合わせた意味トークンを生成できます。音響コンポーネントは、有限スカラー量子化（FSQ）で、21の均一レベルを使用します。

8つの識別器を用いたマルチ解像度敵対的学習により、高忠実度の波形再構成を実現します。コーデック全体のパラメータ数は約300Mです。

VQ（ベクトル量子化）とFSQ（有限スカラー量子化）の違い

VQは学習済みの離散埋め込みベクトルのコードブックを維持し、入力を最近傍のエントリに置き換えます。コードブックサイズ8192＝8192種類の意味的な「単語」。FSQは各次元を独立して固定数の均一レベル（ここでは21）に量子化します。コードブックの参照なしで、各スカラーを21段階の最近傍値に丸めるだけです。FSQはVQの「コードブック崩壊」問題（多くのエントリが全く使われない）を回避しながら、より安定した学習を提供します。

Voxtralコーデックのアーキテクチャ：エンコーダブロック、VQとFSQ量子化、デコーダブロック、および敵対的学習とASR蒸留損失。 — **図3：** Voxtralコーデックのアーキテクチャと学習。分割された意味VQと音響FSQコードブック。意味トークンには、ASR蒸留損失が追加されています。

自己回帰トークン生成シーケンスの抽象的なイラスト — 自己回帰的な意味トークン生成に続いて、フローマッチングによる音響トークンの予測。

デコーダバックボーンとフローマッチングトランスフォーマー

デコーダバックボーンは、Ministral 3Bアーキテクチャ（デコーダのみのトランスフォーマー）に従います。入力は、インターリーブされた参照音声トークンとテキストトークンで構成され、出力は、自己回帰的に生成される音声トークンです。

各タイムステップで、3層の双方向フローマッチングトランスフォーマーが、デコーダの隠れ状態から音響トークンを予測します。 8個のNFE（関数評価数）と分類フリーガイダンス（CFG、α=1.2）を使用して、表現力とテキストへの適合性のバランスをとります。

浮動小数点値の音響出力は、次の自己回帰ステップの前に、21のFSQレベルに離散化されます。これにより、バックボーンボキャブラリとの完全な離散トークンインターフェースが維持されます。

フローマッチングとは？なぜ音響トークンに使うのか？

フローマッチングはガウスノイズからターゲット分布（実際の音響トークン）への変換を常微分方程式（ODE）で学習する生成モデル技術です。自己回帰生成（逐次的）とは異なり、フローマッチングは36個の音響トークン全てを少ないステップ（ここでは8 NFE）のODE求解で同時生成します。これにより完全な拡散サンプリングより大幅に高速化しつつ、高忠実な声の音色に必要な音響トークン次元間の複雑な依存関係をモデル化できます。

Voxtralコーデック：主要なハイパーパラメータ

表1： Voxtralコーデックの主要なハイパーパラメータ。

パラメータ	値
入力/前処理
サンプリングレート	24,000
パッチサイズ	240
オートエンコーダ
エンコーダパッチ射影カーネルサイズ	7
エンコーダパッチ射影次元	1024
エンコーダトランスフォーマーレイヤー	2 → 2 → 2 → 2
エンコーダスライディングウィンドウサイズ	16 → 8 → 4 → 2
エンコーダコンブカーネル	4 → 4 → 4 → 3
エンコーダコンブストライド	2 → 2 → 2 → 1
離散ボトルネック
意味VQコードブックサイズ	8,192
音響FSQコードブック数 × サイズ	36 × 21
識別器
FFTサイズ	2296, 1418, 876, 542, 334, 206, 126, 76
チャンネル数	256

トレーニング

Voxtral TTSは、ペアになった音声とテキストデータを用いた大規模な事前学習、および、音声の自然さ、話者の一致性を向上させるためのDirect Preference Optimization (DPO)の2段階でトレーニングされています。

事前学習

Voxtral Mini Transcribeから得られたペアになった音声と擬似ラベル付きのテキストデータでトレーニングされています。各サンプルは、(A₁, T₂, A₂)というタプルで構成されます。A₁は音声参照、T₂はA₂のテキスト（生成対象）、A₂は音声です。

損失は、A₂のトークンに対してのみ計算されます。意味トークンに対してはクロスエントロピー、音響トークンに対してはフローマッチング損失が使用されます。デコーダのバックボーンはMinistral 3Bから初期化され、テキスト埋め込み層は、低周波トークンに対するロバスト性を向上させるために固定されています。

音声活動検出 (VAD) は、無音フレームに対する損失を抑制します。シンプルなLLMベースのテキスト書き換えにより、正規化されたテキストと正規化されていないテキストに対するロバスト性が向上します。

Direct Preference Optimization (DPO)

なぜTTSにDPOを使うのか？NLPの技術を音声に適用

DPOはLLMを人間の好みに合わせるために設計されましたが、TTSでは「好み」が音声品質の判断になります。パイプライン：(1)同じテキストから複数の音声出力を生成、(2)WER・話者類似度・UTMOS-v2自然さでスコアリング、(3)勝者/敗者ペアを形成、(4)敗者に対する勝者の確率を高めるようモデルを訓練。コツは連続的な音響トークンへのDPO適用で、flow-DPOバリアントはフローマッチングステップのODEソルバーを通じて選好勾配を逆伝播します。

単語エラー率 (WER) と話者の一致性を向上させるために、DPOによるポストトレーニングが行われます。意味トークンに対しては、標準的なDPOの目的関数が使用されます。音響トークンに対しては、Ziv et al. (2025)で提案されたフロー-DPOの目的関数を自己回帰設定に適合させて使用します。

リジェクトサンプリングパイプラインを用いて、WER、話者の一致性、音量の一貫性、UTMOS-v2によって評価された音声ペア（勝者/敗者）を生成します。組み合わせたDPO + 事前学習の目的関数を、高品質な音声データで1エポックトレーニングします。

β_semantic = 0.1、β_acoustic = 0.5。トレーニングの安定性のために、学習率は8×10⁻⁸に設定されています。

結果

Voxtral TTS は、コーデック再構成品質、自動評価指標（WER、UTMOS-v2、話者類似度）、および 9 か国語での人間による好み調査について評価されています。

Voxtral コーデック vs. Mimi

表 2: Expresso データセットにおける Voxtral コーデックと Mimi の比較。↓ は小さいほど良い、↑ は大きいほど良い。

モデル	fps	トークン/フレーム × ボキャブラリサイズ	ビットレート (kbps)	再構成 (↓)		侵入性 (↑)		知覚 (↑)
モデル	fps	トークン/フレーム × ボキャブラリサイズ	ビットレート (kbps)	Mel	STFT	PESQ	ESTOI	ASR-WER (%) (↓)	話者類似度 (↑)
Mimi – 8cb (Moshi)	12.5	8 × (2048)	1.1	0.702	1.177	2.07	0.803	11.75	0.672
Mimi – 16cb	12.5	16 × (2048)	2.2	0.618	1.100	2.67	0.865	11.01	0.829
Mimi – full 32cb	12.5	32 × (2048)	4.4	0.552	1.040	3.18	0.910	10.25	0.902
Voxtral コーデック	12.5	1 × (8192) + 36 × (21)	2.1	0.545	0.982	3.05	0.882	10.66	0.843

2.1 kbps では、Voxtral コーデックは、すべての客観的指標において Mimi-16cb (2.2 kbps) と同等またはそれ以上です。

コーデック評価指標の意味

Mel / STFT距離（↓）：スペクトル再構成誤差。デコードされた音声が周波数空間で元音声にどれだけ近いか。PESQ（↑）：電話規格由来の知覚音声品質スコア。ESTOI（↑）：拡張短時間客観明瞭度。リスナーがどれだけ音声を理解できるかを予測。ASR-WER（↓）：ASRモデルが再構成音声を書き起こした際の単語誤り率。低いほどコーデックが音韻的詳細を保持。話者類似度（↑）：元音声と再構成音声の話者埋め込みのコサイン類似度。

自動評価 — WER、UTMOS、話者類似度

表 3: Voxtral TTS、ElevenLabs v3、および ElevenLabs Flash v2.5 の WER (%) (↓)、UTMOS (↑)、および話者類似度 (↑) を、言語別に示します。

タスク	WER (%) (↓)			UTMOS (↑)			話者類似度 (↑)
タスク	Voxtral	ElevenLabs v3	ElevenLabs Flash	Voxtral	ElevenLabs v3	ElevenLabs Flash	Voxtral	ElevenLabs v3	ElevenLabs Flash
MiniMax
アラビア語	2.68	3.67	2.86	3.07	2.50	2.89	0.746	0.546	0.539
ドイツ語	0.83	0.45	1.08	3.12	2.90	3.27	0.721	0.457	0.489
英語	0.63	0.48	0.33	4.30	4.27	4.27	0.786	0.484	0.489
スペイン語	0.51	0.87	0.49	3.41	3.18	2.99	0.762	0.443	0.541
フランス語	3.22	2.34	2.26	2.83	2.90	2.94	0.587	0.339	0.378
ヒンディー語	4.99	8.71	5.08	3.56	3.56	3.35	0.839	0.707	0.679
イタリア語	1.32	0.58	0.55	3.43	3.08	3.09	0.739	0.527	0.485
オランダ語	1.99	1.52	0.83	3.89	3.53	3.68	0.720	0.397	0.598
ポルトガル語	1.02	0.92	1.15	3.66	3.41	3.41	0.785	0.571	0.642
Seed TTS	1.23	1.26	0.86	4.11	3.92	4.09	0.628	0.392	0.413

Voxtral TTS は、すべての言語において、ElevenLabs モデルよりも、話者類似度で大幅に優れています。

主要な音声評価 (感情制御)

表 4: Voxtral TTS の、感情制御の種類ごとの勝率。

感情制御	対戦モデル	Voxtral TTS の勝率 (%)
明示的	ElevenLabs v3	51.0
明示的	Gemini 2.5 Flash TTS	35.4
暗示的	ElevenLabs Flash v2.5	58.3
	ElevenLabs v3	55.4
	Gemini 2.5 Flash TTS	37.1

Voxtral TTS は、暗示的な感情制御において、ElevenLabs を一貫して上回っています。

ゼロショット音声クローンの勝率

表 5: 言語別の Voxtral TTS の勝率 (vs ElevenLabs Flash v2.5)。

言語	Voxtral TTS の勝率 (%)
アラビア語	72.9
オランダ語	49.4
英語	60.8
フランス語	54.4
ドイツ語	72.0
ヒンディー語	79.8
イタリア語	57.1
ポルトガル語	74.4
スペイン語	87.8
総合	68.4

Voxtral TTS は、すべての言語において ElevenLabs Flash v2.5 と同等以上の成績を収めています。

分析

DPO ポストトレーニングの効果と、主要な推論パラメータの影響を分析します：フローマッチングトランスフォーマーにおける Function Evaluations (NFEs) の数、および CFG スケールパラメータ α です。

DPO の改善点

表 6: DPO は、さまざまな言語で WER (Word Error Rate) と UTMOS (Unintelligible and Meaningless Output Score) を改善します。

タスク	WER (%) ↓		UTMOS ↑
タスク	事前学習 (Pretrain)	DPO	事前学習 (Pretrain)	DPO
MiniMax
アラビア語 (Arabic)	2.80	2.68 (-0.12)	3.01	3.07 (+0.06)
ドイツ語 (German)	4.08	0.83 (-3.25)	3.05	3.12 (+0.07)
英語 (English)	0.84	0.63 (-0.21)	4.25	4.30 (+0.05)
スペイン語 (Spanish)	0.56	0.51 (-0.06)	3.38	3.41 (+0.04)
フランス語 (French)	5.01	3.22 (-1.79)	2.76	2.83 (+0.07)
ヒンディー語 (Hindi)	3.39	4.99 (+1.61)	3.43	3.56 (+0.13)
イタリア語 (Italian)	2.18	1.32 (-0.85)	3.36	3.43 (+0.07)
オランダ語 (Dutch)	3.10	1.99 (-1.11)	3.85	3.89 (+0.04)
ポルトガル語 (Portuguese)	1.17	1.02 (-0.15)	3.60	3.66 (+0.06)
Seed TTS	1.58	1.23 (-0.35)	4.07	4.11 (+0.04)

DPO は、ほとんどの言語で WER と UTMOS を改善します。ヒンディー語では WER が低下していますが、UTMOS は改善 (+0.13) し、わずかに明瞭さが低下しています。

NFEs と CFG scale α の効果

NFEs と CFG scale α が WER、UTMOS、および話者類似性に及ぼす影響を示す 6 つのグラフ。NFEs を 2 から 8 に増加させると、すべてのメトリックが向上します。8 を超えると、改善の効果は頭打ちになります。CFG α=1.2 をデフォルト値として選択 — より高い α は音声プロンプトへの過剰な適合を引き起こし、暗黙の感情表現を低下させます。 — **図 4:** NFEs と CFG が自動評価に及ぼす影響。SEED-TTS と 9 つの MiniMax 言語の平均値を使用。NFEs を 2 から 8 に増加させると、WER と UTMOS が大幅に向上します。8 を超えると、改善の効果は頭打ちになります。 CFG α=1.2 をデフォルト値として選択 — より高い α は音声プロンプトへの過剰な適合を引き起こし、暗黙の感情表現を低下させます。

推論と配信

vLLM-Omniとの統合

Voxtral TTSは、マルチステージの多様性モデル向けに拡張されたvLLMであるvLLM-Omniを通じて配信されます。このシステムは、次の2つのパイプラインステージで構成されます。

生成ステージ: 音声と音響のトークンを自己回帰的に予測します。
コーデックデコードステージ: トークンを波形に変換します。

これらの2つのステージは、共有メモリを介した非同期チャンクストリーミングプロトコルを使用して通信し、これにより、完全な波形が生成される前に、最初の音声が非常に短い遅延で出力されます。出力される各チャンクは、以前のフレームと重なり合い、境界をまたいでの時間的な一貫性を維持します。

CUDA Graphによる高速化

フローマッチング変換器が、計算上のボトルネックとなっています。このODEソルバー全体がCUDAグラフにカプセル化されており、Pythonレベルのオーバーヘッドやカーネル起動の遅延を排除します。バッチサイズは、バケット境界に切り上げられ、出力は実際のサイズにスライスされます。

CUDAグラフは、遅延を47%削減し（133 ms → 70 ms）、RTFを2.5×向上させます（0.258 → 0.103）。これは、単一のNVIDIA H200上での結果です。

CUDAグラフとRTFの解説

CUDAグラフはGPU操作のシーケンス（カーネル呼び出し・メモリコピー）を単一の実行可能グラフとして事前記録します。Pythonが各CUDAカーネルを実行時に個別にディスパッチする（起動ごとにオーバーヘッド）代わりに、フローマッチング変換器のODEソルバー全体が一つのアトミックなGPU操作として実行されます。特定のバッチサイズで計算グラフが固定される場合に特に効果的です。

RTF（リアルタイム係数）は処理時間と音声時間の比率：RTF=0.103とは1秒の音声生成に0.103秒かかること、つまり約10倍の高速化。実用的なストリーミングにはRTF<1が必要で、CUDAグラフによる2.5倍改善は「ぎりぎり十分」と「快適なストリーミング」の差を生みます。

CUDA GraphとEagerモード

表7: フローマッチング変換器に対するCUDAグラフの高速化の効果。
500文字のテキスト入力、10秒の音声参照、並列処理数1、単一のH200。

構成	遅延	RTF
Eagerモード	133 ms	RTF	0.258
CUDAグラフ	70 ms	0.103

単一のH200上での配信性能

表8: 500文字のテキスト入力と10秒の音声参照を使用したVoxtral TTSの配信性能。

並列処理数	遅延	RTF	スループット（char/s/GPU）	待機率
1	70 ms	RTF	0.103	待機率	119.14	0%
16	331 ms	0.237	879.11	0%
32	552 ms	0.302	1,430.78	0%

すべての並列処理レベルで、待機率は0%です。スループットは、並列処理数1から32まで12倍に増加します。単一のH200は、1秒未満の遅延で30人以上の同時ユーザーに対応できます。

結論

我々は、Voxtral TTSという、多言語対応のテキスト読み上げモデルを紹介しました。このモデルは、意味トークンの自己回帰生成と、音響トークンのフローマッチングを利用したハイブリッドアーキテクチャを採用しています。これらのトークンは、Voxtral Codecという音声トークナイザーのもので、ASR（自動音声認識）で生成された意味トークンと、FSQ（Frequency-domain Short-Time Fourier transform）音響トークンを組み合わせたものです。

Voxtral TTSは、わずか3秒の参照音声から、表現力豊かな音声クローンを作成できます。また、人間による評価において、ElevenLabs Flash v2.5よりも68.4%の勝率を記録しました。このモデルの重みは、CC BY-NCライセンスのもとで公開されており、表現力豊かなTTSシステムのさらなる研究開発を支援することを目的としています。

9言語 3秒の参照音声 68.4%の音声クローン成功率 CC BY-NCのオープンウェイト 70 msの初回音声遅延

B2B Content

あらゆるコンテンツを、御社向けに美麗に制作します

PDF・動画・Webページ等のあらゆる素材から、プロダクション品質のコンテンツを制作します。リッチHTML・カスタムスライド・アニメーション動画。

サービス詳細を見るお問い合わせ