トークンワーピングがMLLMの近傍視点推論を助ける

主要な貢献

🧩

トークンワーピング

深度推定とカメラ姿勢を使用して、ソースビューからターゲット視点への画像トークン（ピクセルではない）をワーピングするトレーニング不要な手法。ピクセルレベルの手法を壊滅的に歪める深度誤差に対してロバストです。

🔄

後ろ向きワーピングが最良

前向きと後ろ向きトークンワーピングの系統的比較により、後ろ向きワーピング（密なターゲットビューグリッドを定義してソーストークンを取得）がより高い安定性と意味的一貫性を達成することが明らかになりました。

🏆

ViewBenchベンチマーク

5°〜35°の回転範囲にわたるMLLM視点推論を評価する3つのサブタスク（空間推論、形状推論、物体記述）を持つ新しいベンチマーク。

概要

ピクセルではなくトークンをワーピングすることで、マルチモーダル大規模言語モデル（MLLM）が近傍の視点からシーンがどのように見えるかを理解できるようになるのでしょうか？MLLMは視覚推論において優れたパフォーマンスを発揮しますが、ピクセル単位のワーピングはわずかな深度誤差に非常に敏感で、幾何学的な歪みをもたらすため、視点変化に対して脆弱です。人間の視点変換の基礎として部位レベルの構造的表現を仮定する心像理論に基づき、ViTベースのMLLMにおける画像トークンが視点変化の効果的な基盤として機能するかを検討します。前向きワーピングと後ろ向きワーピングを比較した結果、ターゲットビューに密なグリッドを定義し、各グリッドポイントに対応するソースビュートークンを取得する後ろ向きトークンワーピングが、より高い安定性を達成し、視点シフト下での意味的一貫性をより良く保つことがわかりました。提案するViewBenchベンチマークでの実験により、トークンレベルのワーピングがMLLMを近傍視点から確実に推論できるようにすることが実証され、ピクセル単位のワーピングアプローチ、空間的にファインチューンされたMLLM、生成的ワーピング手法を含むすべてのベースラインを一貫して上回りました。

わかりやすく言うと：この論文は、MLLMに「心的回転」能力を与えられるかどうかを問います。つまり、その角度から元の画像を処理するのではなく、見ている画像パッチを並べ替えることで、わずかに異なるカメラ角度からシーンを想像させることです。答えはイエスであり、重要な洞察はこの並べ替えが寛容であることです。わずかに間違ったパッチを取得しても、MLLMはシーンを十分に理解できます。

Viewpoint Change via Token Warping teaser — 図1. トークンワーピングによる視点変換。ソース画像（View A）が与えられると、後ろ向きトークンワーピングが回転した視点（View B）からのシーンを表すトークンを合成し、ピクセル合成なしにMLLMが空間的関係について正しく推論できるようにします。

はじめに

画像からの空間推論の核心は、シーンの3次元構造を理解することです。深度推定はほぼ完璧な精度を達成していますが、予測された深度をMLLMに組み込んでも、真の3D理解は得られません。異なる視点から同じシーンを説明するような単純なタスクでさえ、明示的な3D教師あり学習でファインチューンされたMLLMはほとんど改善を示しません。3D認識特徴を組み込んだモデルにも同様の限界があり、依然として視点変換についての推論に苦労しています。

Shepard、Minsky、Pylyshyn、Hintonに至る心像の古典的研究は、心像が部位レベルで定義された構造的記述に依存していることを提唱しています。この観点から、Transformerアーキテクチャが使用する画像トークンは、機械が知覚できる部位レベルの表現を表しています。したがって、心像の概念をオブジェクトレベルの抽象化ではなく、これらの知覚的な原子単位に拡張することは自然なことです。

核心的仮説

ViTベースのMLLMにおける画像トークンは視点変化の効果的な基盤として機能します。トークンに適用された変換は視点シフト下で一貫した内部表現を生成し、空間推論を改善します。また、トークンレベルの変換は、ピクセルレベルのワーピングを壊滅的に劣化させる幾何学的ノイズに対してロバストです。

パッチ摂動実験でこれを検証します。パッチを取得する際の位置オフセットを徐々に増加させると、MLLMは摂動されたトークンに対して驚くほど安定したままであることが示される一方、ピクセルレベルの摂動は深刻な精度低下を引き起こします。これは、不完全な深度マップを使用して異なる視点からトークンを構築する際に導入される幾何学的ノイズが、MLLMの視覚的理解を著しく損なわないという強力なエビデンスを提供します。

ViT image tokenization — 図2. ViT画像トークン化：(A) ソース画像 → (B) パッチグリッド → (C) MLLMに供給される画像トークン。トークンワーピングはこの表現に基づいて動作します。

なぜピクセルではなくトークンなのか？不完全な深度マップで画像をピクセルレベルでワープすると、各ピクセルが間違った場所に移動し、結果が壊れて見えます。しかし、トークンをワープすると、「間違った」位置でもシーンの近くの部分に着地します — MLLMはそれを視覚的なゴミとしてではなく、わずかにずれたパッチとして読み取ります。GPS座標ではなくランドマークで航法するようなもので、数メートルのずれは問題なく、GPSノイズは重要ではありません。

手法：視点変換のためのトークンワーピング

深度推定とカメラ姿勢を使用して、MLLMの視点条件付き画像トークンを構築するトレーニング不要なアプローチ。

Pixel-wise vs Token warping comparison — 図4. (A) ピクセル単位のワーピングは、小さな深度誤差を深刻な視覚的歪みに増幅させます。(B) トークンワーピングは、ターゲットグリッド位置をソースにマッピングし、小さな誤差は単に隣接するトークンを取得するだけ — 視覚的な歪みはありません。

Forward vs Backward warping comparison — 図3. 前向きワーピングはワープされたビューにホールとアーティファクトを導入します。後ろ向きワーピングはより完全で幾何学的に一貫した結果を生成します。

空間ノイズに対するトークンのロバスト性

Token perturbation robustness chart — 図5. トークン摂動ロバスト性。MLLMは、パッチセンターの大きな位置摂動でも高い認識精度（緑）を維持しますが、ピクセルレベルの摂動（黄色）は深刻に劣化します。

パッチを取得する際の位置オフセットを0から20pxまで段階的に増加させることでMLLMのロバスト性をテストしました。パッチサイズに近い摂動でさえ、摂動されたトークンではMLLMはわずかな精度低下しか示しませんでした。一方、同じスケールのピクセルレベルの摂動は深刻な劣化を引き起こしました。これは、不完全な深度推定によって導入される幾何学的ノイズがトークンレベルの視覚的理解を著しく損なわないことを確認します。

各画像パッチをパズルのピースだと考えてください。パズルのピースを数ミリ移動しても、何が描かれているかはまだわかります。しかし、ピクセルレベルの歪みでぼかしたりピクセル化すると、ピースは認識できなくなります。MLLMはパズルのピースのようにトークンを処理します — 小さな位置エラーは意味を破壊しません。

最近傍取得 vs. 適応的取得

Nearest Fetching vs Adaptive Fetching — 図7. (A) 最近傍取得：マッピングされたターゲット位置に最も近い事前計算済みトークンを割り当てます。(B) 適応的取得：マッピングされた正確なセンターでソース画像を再パッチ化し、より細かい視覚的詳細を捉えます。

1

深度推定

ソース画像にオフザシェルフの単眼深度推定器を適用します。得られた深度マップは、ターゲットカメラ姿勢とともに、トークンワーピングの3D幾何学を定義します。

2

後ろ向きトークンワーピング

ターゲットビューに密なグリッドを定義します。各ターゲットグリッドポイントについて、深度マップを使用して3Dに投影し、ターゲットカメラフレームに変換し、対応するソースビューパッチ（最近傍または適応的取得）を取得します。

3

MLLM推論

ワープされたトークンシーケンス（ターゲット視点からシーンを表す）を視点条件付き質問とともにMLLMに供給します。ファインチューニングは不要で、ViTベースのMLLMはそのまま動作します。

パイプライン全体を一文で：ソース画像を取得し、任意のオフザシェルフモデルで深度を推定し、ターゲットビューグリッドの各位置について、そのポイントがソース画像のどこから来たかを見つけてそこのソースパッチを取得し — これらの並べ替えられたパッチ（トークンとして）をMLLMに供給して質問に答えます。

ViewBench：視点推論のための新しいベンチマーク

MLLMが近傍視点からシーンを推論する能力を評価するために特別に設計されたベンチマーク、ViewBenchを紹介します。3つの補完的なサブタスクと3つの回転範囲（5°〜15°、15°〜25°、25°〜35°）をカバーしています。

💬

ViewBench-テキスト

視点条件付き空間推論：ターゲット視点からの物体の空間的関係についての二値左右質問。MLLMが空間推論を回転した視点に正しく向けることができるかをテストします。

📐

ViewBench-形状

ターゲットビューからの形状識別：モデルは回転した視点から見た物体の正しい形状を識別する必要があり、幾何学的視点理解をテストします。

👁️

ViewBench-物体

ターゲットビュー物体記述：ターゲット視点から物体がどのように見えるかのオープンエンド記述。実際のターゲットビューの外観に一致する記述を報酬として、LLMジャッジによって-10から+10の類似度スケールで評価されます。

ViewBench benchmark examples — 図6. 3つのサブタスクにわたるViewBenchの例：空間推論（左）、形状識別（中央）、ターゲットビュー物体記述（右）。緑のチェックマークは正解を示します。

ViewBenchは、幾何学から導き出せる明確な正解を持つ質問になるように設計されています。「物体記述」タスクは、ターゲットビューがソースからは見えない新しい物体の特徴を明らかにする可能性があるため、二値の答えではなくLLMジャッジを使用します。-10から+10のスケールは、新しい角度から実際に見えるものを説明する答えを報酬とします。

実験と結果

トークンワーピング（後ろ向き-適応的）は、すべての3つのViewBenchサブタスクとすべての回転範囲（5°〜35°）にわたってすべてのベースラインを一貫して上回ります。トレーニングなしで、ピクセル単位のワーピング、空間的にファインチューンされたMLLM、新規ビュー合成、生成的ワーピング手法を超えます。

表1：ViewBenchの主要結果

Main quantitative results on ViewBench — 表1. 3つのサブタスク（ViewBench-テキスト、ViewBench-形状、ViewBench-物体）と3つの回転範囲にわたるViewBenchの精度。後ろ向きトークンワーピング（適応的）は最高スコアを達成し、特に大きな回転で優れています。

定性的比較

Qualitative comparison across methods — 図8. ViewBench-テキスト例での定性的比較。トークンワーピング（後ろ向き-適応的）はターゲット視点からの空間的質問に正しく答えますが、ピクセル単位のワーピングや他のベースラインは頻繁に誤った回答を与えます。

ファインチューン済みベースラインとの比較

Comparison with fine-tuned MLLM baselines — 表2. 空間的にファインチューンされたMLLMベースラインとの比較。トレーニングを必要としないにもかかわらず、トークンワーピングは専用の空間的教師あり学習モデルを上回ります。

なぜトレーニング不要なトークンワーピングが3D空間タスクで明示的にトレーニングされたモデルに勝るのか？空間ファインチューニングは典型的なビューがどのように見えるかをモデルに教えますが、視点変換能力の根本的な欠如を修正しません。トークンワーピングはターゲット視点を積極的に合成します — モデルが変換を想像できることを期待するのではなく、正しい視覚入力を与えます。

結論

本論文では、MLLMにおける視点条件付き視覚推論を可能にするトレーニング不要なアプローチとして、トークンワーピングを紹介します。主要な発見は以下の通りです：

ViTベースのMLLMにおける画像トークンは空間的摂動に対してロバストであり、視点変換の効果的な基盤となります。
適応的取得を用いた後ろ向きトークンワーピングは、前向きワーピングとすべてのピクセル単位、ファインチューニング、生成的ベースラインを一貫して上回ります。
提案するベンチマークViewBenchは、空間、形状、物体記述タスクにわたる視点条件付きMLLM推論のための包括的な評価フレームワークを提供します。
このアプローチは心像の認知理論に自然に接続し、ニューラルネットワークの部位レベルトークン表現が人間の視点推論の基礎にある構造的表現を反映していることを示唆します。

重要ポイント

トークンレベルの心像 — ピクセル操作や明示的な3D再構築ではなく — は、マルチモーダルAIシステムにおけるロバストな空間推論への有望で実践的な道です。

引用

@article{lee2026tokenwarping,
  title={Token Warping Helps MLLMs Look from Nearby Viewpoints},
  author={Lee, Phillip Y. and Park, Chanho and Park, Mingue
          and Yoo, Seungwoo and Koo, Juil and Sung, Minhyuk},
  journal={arXiv preprint arXiv:2604.02870},
  year={2026}
}