PixelSmile: 微細な表情編集への取り組み

概要

詳細な表情編集は、その本質的な意味的な重複によって長らく制限されてきました。この問題を解決するために、私たちは連続的な感情アノテーションを備えた Flex Facial Expression (FFE) データセットを構築し、構造的な混乱、編集精度、線形制御、および表情編集と同一性保持のトレードオフを評価するための FFE-Bench を確立しました。私たちは、完全に対称な同時学習によって表情のセマンティクスを分離する拡散フレームワークである PixelSmile を提案します。PixelSmileは、強度に関する監督とコントラスト学習を組み合わせることで、より強力で区別された表情を生成し、テキストによる潜在空間の補間を通じて、正確で安定した線形的な表情制御を実現します。広範な実験により、PixelSmileは優れた分離性と堅牢な同一性保持を実現し、連続的で制御可能で詳細な表情編集に効果的であることが確認されました。また、自然な表情のブレンドもサポートします。

表情の「意味的重複」とは？

「恐怖」と「驚き」はどちらも目が大きく見開かれ、眉が上がるという共通の身体的特徴を持ちます。この構造的な重複により、離散的な感情ラベルで訓練されたモデルはこれらのカテゴリを混同しがちです。「恐怖」を生成しようとしても、誤って「驚き」が生成されることがあります。PixelSmileはこれを単なるラベリングエラーではなく、表情空間における根本的な幾何学的問題として捉え、より良い分類器ではなく明示的な分離（disentanglement）を必要とするアプローチを取ります。

貢献

🔍
意味的な重複の体系的な分析

私たちは、表情間の構造的な意味的な重複を明らかにし、形式化しました。構造的な意味的な重複は、単なる分類エラーではなく、認識および生成的な編集タスクの失敗の主要な原因であることを示しています。
📊
データセットとベンチマーク (FFE + FFE-Bench)

12の表情カテゴリを特徴とする大規模なクロスドメインコレクションであり、連続的な感情アノテーションが施されています。構造的な混乱、表情編集の精度、線形制御、および同一性保持のための多次元評価を行います。
🤖
PixelSmile フレームワーク

完全に対称な同時学習とテキストによる潜在空間の補間を利用する、新しい拡散ベースのフレームワークです。重複する感情を効果的に分離し、分離された線形的に制御可能な表情編集を可能にします。

3. データセットとベンチマーク

FFEデータセット

FFEは、表現の多様性、クロスドメインの網羅性、および信頼性の高いアノテーションを確保するために設計された、4段階の「収集–構成–生成–アノテーション」パイプラインによって構築されます。最終的なデータセットには、60,000枚の画像が含まれており、リアルとアニメのドメインをカバーしています。

🏗 ベースとなるアイデンティティの収集: 約6,000枚のリアルなポートレート（多様な属性）+ 207の制作からの6,000人のアニメキャラクター（合計629人）。
✍ 表情プロンプトの構成: 12種類の分類: 6つの基本感情 + 6つの拡張感情（混乱、軽蔑、自信、恥ずかしさ、眠気、不安）。顔の属性コンポーネントに分解されます。
🎨 制御された表情の生成: 約60,000枚の画像。 Nano Banana Proの2つのプロンプト（グローバルな表情 + 局所的な顔の属性）を使用。
📐 連続的なアノテーション: 12次元の連続的なスコアベクトル v ∈ [0, 1]¹²。 Gemini 3 Proによって予測されます。信頼性のために、人間が検証したサブセットがあります。

離散ラベルと連続ラベルの違い

従来の感情データセットは「幸せ」「怒り」のように単一ラベルを割り当てます。FFEでは代わりに12次元ベクトルを割り当て、各次元は[0, 1]の実数値です。例えば、ある顔は「幸せ度0.8・驚き度0.3」を同時に持てます。これによりモデルは硬い境界ではなく、滑らかな感情多様体（emotion manifold）を学習できます。

FFE-Bench評価

📉
mSCR

平均構造的混乱率

意味的に類似した表現間のカテゴリ間の混乱を定量化します。値が小さいほど良い。
🎯
HES

調和編集スコア

HES = 2×S_E×S_ID / (S_E+S_ID)。表情の強度とアイデンティティの保持のバランスを取ります。値が大きいほど良い。
📏
CLS

制御線形スコア

αとVLMによって予測された強度との間のピアソン相関。 値が大きいほど、制御が予測しやすいことを示します。
✅
Acc

表情編集の精度

生成された画像の、予測された主要な表情がターゲットの指示と一致する割合。

4. Method — PixelSmile Framework

PixelSmile framework overview: inference stage with textual latent interpolation and training stage with fully symmetric joint training — **Figure 3. Framework Overview.** (1) *推論段階 (Inference Stage)*: テキスト埋め込み空間において、中性表情とターゲット表情の埋め込みベクトルを、制御可能な係数 α を用いて補間します。これにより、表情の強さを連続的に調整できます。 (2) *学習段階 (Training Stage)*: 対称的なコントラスティブ損失、同一性損失、およびフローマッチング損失を用いた、完全に対称的な共同学習フレームワークを採用しています。

テキスト埋め込み空間での補間 (Textual Latent Interpolation)

テキスト埋め込み空間において、線形補間を行います。

e_cond(α) = e_neu + α · Δe,　α ∈ [0, 1]

連続的な条件付き埋め込みにより、参照画像なしで、推論時に正確で滑らかな表情の操作を可能にします。 α > 1 を使用することで、より強い表情の転送を実現できます。

テキスト潜在空間補間の仕組み

拡散モデルはテキスト埋め込みベクトル e で条件付けられます。PixelSmileは「中性」と「目標感情」の2つの埋め込みを計算し、条件付けベクトルを加重ブレンドします：e_neu + α × (e_target − e_neu)。α=0で表情なし、α=1で完全な目標表情、α=1.5で誇張表現になります。これはすべてモデル内部のテキスト埋め込み空間で行われるため、参照顔画像は不要です。

完全に対称的な共同学習 (Fully Symmetric Joint Training)

混乱しやすい表情ペア (E_a, E_b) をサンプリングします。対称的なコントラスティブ損失は以下の通りです。

ℒ_SC = ½[𝒯(G_a,P_a,N_surp) + 𝒯(G_b,P_b,N_fear)]

InfoNCE スタイルの目的関数 (τ = 0.07) を用いて、重なり合う表情を双方向から分離します。

「対称」学習がなぜ重要か

単純に「恐怖」を「驚き」から遠ざけるだけでは、恐怖の生成は改善しても驚きは恐怖と混同されたままになることがあります。対称学習では両方向を同時に最適化します：恐怖画像が驚きから離れ、かつ驚き画像も恐怖から離れるよう学習します。アブレーション実験（図8）では、対称性を除去するとコントラスティブ損失を維持していても表情の混乱が発生することが確認されています。

同一性の保持 (Identity Preservation)

ArcFace を同一性エンコーダ Φ_arc として固定します。

ℒ_ID = ½ Σ [1 − cos(Φ_arc(G_i), Φ_arc(P_i))]

強い表情の補間下での生体認証特徴量を安定させ、ヘアスタイルや肌のテクスチャの変化を防ぎます。

ArcFaceとコサイン同一性損失

ArcFaceは顔認識モデルで、どんな顔画像も高次元埋め込みベクトルに変換し、表情に関わらず同一人物のベクトルが常に近くなるように設計されています。同一性損失は生成顔とターゲット顔のコサイン距離を最小化するため、「笑顔」への編集で意図せず髪色・肌のトーン・顔の形が変わることを防ぎます。

全体の学習目的 (Overall Training Objective)

ℒ_total = ½(ℒ^a_FM + ℒ^b_FM) + λ_sc·ℒ_SC + λ_id·ℒ_ID

λ_sc は、表情の分離と同一性の保持のトレードオフを制御します。4つの NVIDIA H200 GPU で、LoRA (rank 64, α 128) を用いて学習しました。

5. 実験と結果

評価指標まとめ

mSCR（低いほど良い）：モデルがある表情を別の表情と混同する頻度。PixelSmileは0.055を達成し、従来手法を大きく上回ります。
HES（高いほど良い）：表情強度と同一性類似度の調和平均。品質と同一性のトレードオフを一つの数値で表します。
CLS（高いほど良い）：α=0.3が本当に強度30%を生むかを測るピアソン相関係数。完全な線形制御なら1.0になります。

5.2 定量評価

表1: 一般的な編集モデルの定量評価。mSCR、Acc-6、Acc-12、ID Similarityを比較

表1. 一般的な編集モデルの定量評価。PixelSmileは、mSCRが最も低く (0.0550)、Acc-6が最も高い (0.8627)。

表2: 線形制御モデルの定量評価。CLS-6、CLS-12、ID Similarity、HESを比較

表2. 線形制御モデルの定量評価。PixelSmileは、CLS-6で最高値 (0.8078)、CLS-12で最高値 (0.7305)、HESで最高値 (0.4723) を達成。

散布図。手法ごとの表現スコアとID Similarityの比較。PixelSmileは、より広い表現範囲と狭いID劣化を実現 — **図4. 線形制御手法の定量評価。** 異なるモデルにおける、ID類似性と表現スコアのトレードオフの比較。PixelSmileは、最適なバランスを提供し、より広い表現操作範囲を実現しながら、同一性の忠実性を維持しています。

5.3 質的比較

質的比較グリッド。PixelSmileと6つの一般的な編集モデルを、怒り/嫌悪/恐怖/驚きなどの表情で比較 — **図5. 一般的な編集モデルとの質的比較。** PixelSmileは、顔の同一性を維持しながら、より明確な表情の変化を生み出します。一方、既存の編集モデルは、表現の編集効果を弱めるか、同一性の整合性を損なう傾向があります。

線形制御モデルとの質的比較。5つの手法を、幸せと驚きの表情の6つの強度レベルで表示 — **図6. 線形制御モデルとの質的比較。** PixelSmileは、顔の同一性を維持しながら、滑らかで単調な表情の変化を実現します。図は、2つの代表的な表情を示しています。上段は「幸せ」、下段は「驚き」。

5.4 アブレーションスタディ

ID損失に関するアブレーション。ID損失がない場合、大きな表現強度により、ヘアスタイルや肌のテクスチャにおける同一性のずれが発生 — **図7.** ID損失に関するアブレーション。ID損失がない場合、大きな表現強度により、同一性のずれが発生します。私たちの完全な手法では、同一性を一貫して維持します。

対称的コントラスティブ学習に関するアブレーション。コントラスティブ損失がない場合、表現の混乱が発生。完全な手法では、正確な特徴量の分離を実現 — **図8.** 対称的コントラスティブ学習に関するアブレーション。コントラスティブ損失がない場合と、対称的フレームワークがない場合の両方で、表現の混乱が発生します。私たちの完全な手法では、正確な表現の分離を実現します。

トレーニングダイナミクス。対称的と非対称のフレームワークにおける、mSCRとトレーニング損失のステップごとの変化 — **図9.** 対称的コントラスティブ学習のトレーニングダイナミクス。対称的フレームワークは、初期の収束速度が遅いにもかかわらず、より低く安定したmSCRを達成します。

表3: アブレーションスタディ。mSCR、ACC-6、ACC-12、CLS-6、CLS-12、HES、ID Similarityを比較した7つの構成 — **表3. アブレーションスタディ。** コントラスティブ損失を削除すると、構造的な混乱が最大化されます (mSCR 0.2725)。ID損失を削除すると、表現の精度は向上しますが、同一性は低下します。完全な設定では、最適な全体的なバランスが実現されます。

5.5 ユーザースタディ

ユーザースタディの散布図。PixelSmileは、最も高い連続性 (4.48) と高い同一性の一貫性 (3.80) を実現し、HESスコアのバブルが最も大きい — **図10. ユーザースタディの結果。** 人間の評価者によって評価された、同一性の維持と編集の連続性とのトレードオフ (N=2,400枚の画像、10人の評価者)。バブルの大きさは、HESスコアを示します。

PixelSmileは、人間が評価する最適なバランスを実現します: 連続性 4.48 | 同一性の一貫性 3.80。K-Slider (1.36, 4.06) および SliderEdit (3.16, 1.14) よりも優れています。
      

5.6 表現のブレンド

表現のブレンド結果。基本的な表情間の線形補間をスムーズに行うことで、妥当な複合的な表現を生成 — **図12. 表現のブレンド結果。** PixelSmileによって生成された、複数の感情カテゴリを滑らかにブレンドすることで、組成的な顔の表情を可視化しています。15のペアの組み合わせのうち9つが、妥当な複合的な表現を生成しており、学習された感情の空間が連続的で組成的であることを示唆しています。

なぜ15組中9組しか成功しないのか？

6つの基本感情には15通りのペアがあります。「幸せ＋驚き＝興奮」のように意味的に整合する組み合わせは成功します。一方「嫌悪＋幸せ」などは筋肉的・心理的に相反するため矛盾した結果になります。9/15が成功するという事実は、PixelSmileが幾何学的に意味のある感情多様体を学習した証拠であり、表情のブレンドは明示的に訓練されていない創発的な能力です。

6. 結論

本論文では、顔の表情編集における意味的な複雑さを解決するためのフレームワークであるPixelSmileを提案します。本アプローチは、FFE（Face Expression Editing）によって定義される連続的な表情空間を用いて、離散的な教師あり学習から連続的な学習へと移行し、FFE-Benchを通じて評価することで、対称的な同時学習によって、精密で線形制御可能な編集を可能にします。広範な実験により、PixelSmileは構造的な混乱、表情の正確性、線形制御性、および同一性の維持という4つの側面において有効であることが示されています。全体として、本研究は、詳細な顔の表情編集のための標準化されたフレームワークを確立し、連続的で構成可能な顔の感情操作に関する研究を前進させます。

顔の表情編集 (Facial Expression Editing) 対照学習 (Contrastive Learning) 同一性の維持 (Identity Preservation) 連続制御 (Continuous Control) 表情の分離 (Expression Disentanglement) FFEデータセット (FFE Dataset) FFE-Bench 拡散モデル (Diffusion Models) LoRA

😁 PixelSmile: 微細な表情編集への取り組み

概要