ストリーミング動画理解のためのシンプルなベースライン

主要な発見

🎯

67.7% OVO-Bench

わずか4フレームでSOTA達成

SimpleStream（Qwen3-VL、4フレーム）は、HERMESを含む全ての公開ストリーミング手法を+8.5ポイント上回る。

💾

〜15.6 GB 一定

最小GPUメモリ

固定スライディングウィンドウにより、ストリーム長に関係なくピークGPUメモリが一定。他手法は18〜20 GBまで増大する。

⚡

35〜38 ms TTFT

最速推論

SimpleStreamはHERMESと並ぶ最速クラスのレイテンシを達成。特殊なメモリモジュールなしで実現。

概要

最近のストリーミング動画理解手法は、長時間動画ストリームを処理するために複雑なメモリ機構への依存度を高めています。本研究では、この傾向に対してシンプルな発見で挑戦します：直近のNフレームのみを既製のVLMに入力するスライディングウィンドウベースラインが、既存のストリーミングモデルに既に匹敵または凌駕するのです。このベースラインをSIMPLESTREAMとして形式化し、OVO-BenchとStreamingBenchの13の主要なオフライン・オンライン動画LLMベースラインと比較評価しました。そのシンプルさにもかかわらず、SIMPLESTREAMは一貫して強力な性能を発揮します。わずか4フレームで、OVO-Benchの平均精度67.7%、StreamingBench80.59%を達成。また、長いコンテキストの有用性はモデルスケールで均一に向上するのではなくバックボーン依存であること、そして一貫した知覚-記憶トレードオフ（履歴コンテキストを増やすと記憶は改善するがリアルタイム知覚が低下する）を明らかにしました。

SimpleStreamとは何か？

SimpleStream framework overview — **図1(a)：** SimpleStreamは直近のNフレームのみをVLMに直接入力します。メモリバンク・検索・圧縮は一切なし。上段：Context Management層を持つ複雑なストリーミングVLM。下段：SIMPLESTREAMの最小設計。

意図的なミニマリスト設計

時刻tでのクエリに対して、SIMPLESTREAMは最後のNフレームとクエリテキストを基盤となるVLMに直接入力するだけです。設計は意図的に最小限：短い最近ウィンドウのみを保持し、強力なバックボーンが明確で非圧縮の直近証拠を処理します。

SIMPLESTREAMは、従来のストリーミングシステムが使用する追加メモリ機構を意図的に省略しています。スライディングウィンドウ外のフレームは破棄されるため、クエリごとのメモリと計算量はストリームの長さに関わらず一定に保たれます。

過去の観測を蓄積するメモリデータベースを維持する手法とは異なり、SimpleStreamは直近Nフレームより古いものを単純に忘れます。これがキーとなる洞察です：現代のVLMは既に十分強力であり、小さな窓の最近の非圧縮フレームが、大きな窓の圧縮・検索済みコンテキストを上回ります。

Taxonomy of streaming VLM approaches — **図2：** 従来のストリーミングVLMは、External Memory・Retrieval・Compression・Latent Memoryを介して長いコンテキストを管理します。これらの複雑さをSIMPLESTREAMは意図的に回避します。

ベンチマーク結果

SIMPLESTREAMは統一プロトコルのもと、OVO-BenchとStreamingBenchの13のベースラインと比較評価されています。

Main results table on OVO-Bench and StreamingBench

表1： OVO-BenchとStreamingBenchの主要結果。SIMPLESTREAM（Qwen3-VL-8B、4フレーム）はOVO-Bench平均67.70%、StreamingBench80.59%を達成し、全ての公開ストリーミング手法を上回る。

SimpleStreamが全ての公開ストリーミング手法を上回る

OVO-Bench 67.7%（4フレーム）— HERMESを+8.5pp上回る
StreamingBench 80.59% — 報告されている最高スコア
最低ピークGPUメモリ：〜15.6 GB一定 vs. 競合手法は最大20 GB
TTFT：35〜38 ms — 最速の公開手法（HERMES）と同等

SimpleStreamと複雑なストリーミング手法の差は顕著です：わずか4フレームの7Bモデルが、洗練されたメモリバンクを持つ7Bモデルを打ち負かします。これはボトルネックがコンテキスト長ではなく、コンテキストの質にあることを示唆します——クリーンで直近のフレームが、圧縮されたノイズの多い履歴を上回ります。

効率性：メモリとレイテンシ

Peak GPU memory vs observed frames — **図3：** ピークGPUメモリ vs 観測フレーム数。SimpleStream-4fはストリーム長に関わらず約15.6 GBで一定。競合手法は18〜20 GBまで増大する。

TTFT latency comparison — **表3：** 16/64/256フレームでのTTFT（ms）。SimpleStream-4f：**35/33/38 ms** — 最速の公開手法に匹敵。

分析：なぜシンプルさが勝つのか？

長いコンテキストが常に良いわけではない

Window size ablation chart — **図4：** ウィンドウサイズアブレーション。リアルタイム精度は4フレームでピーク（81.4%）に達し、以降低下。全体精度は4フレームを超えると急速に飽和する。

ストリーミング動画理解での一般的な前提は、より多くの履歴コンテキストが回答を改善するというものです。しかし、ウィンドウサイズアブレーションでは、4フレームが既に最適であり、それを超えるとリアルタイム知覚精度が実際に低下することが示されました。16フレームウィンドウに拡大すると、リアルタイム精度が81.4%から77.9%に低下します。

なぜフレームが増えるとリアルタイム精度が下がるのでしょうか？追加フレームごとにモデルのアテンション分布が変化します——VLMの限られたアテンション予算では、直近フレームと古いフレームが競合します。現在のシーンについての質問に答える場合、古いフレームは信号ではなくノイズです。

モデルスケールの影響

Model scaling ablation — **図5：** OVO-Benchでのモデルスケーリングアブレーション。最適ウィンドウサイズはバックボーン依存であり、モデルスケールに比例して均一に大きくなるわけではない。Qwen2.5-VL-72Bは16フレームを好み、Qwen3-VL-8Bは4フレームでピーク。

表2： OVO-Benchでの固定ウィンドウ評価におけるモデルスケール効果（Qwen2.5-VLとQwen3-VLファミリー）。

知覚-記憶トレードオフ

Perception-memory tradeoff visualization — **図6：** 各手法の知覚-記憶トレードオフ。ほぼ全ての外部ベースラインが、リアルタイム知覚精度（AP）でSimpleStreamを下回る。履歴を追加する手法は記憶は改善するが知覚は低下する。

Visual-RAG ablation results — **表4：** OVO-BenchでのVisual-RAGアブレーション。過去チャンクの検索によりEPM（+7.1）とASI（+6.1）は改善するが、リアルタイム知覚は平均−2.3低下する。

重要な洞察：記憶 vs 知覚のトレードオフ — 履歴コンテキストの追加は記憶タスクを改善します（EPM: +7.1pp、ASI: +6.1pp）が、リアルタイム知覚タスクを一貫して低下させます（OJR: −9.2pp、ACR: −71.6pp）。これは偶然ではなく根本的な緊張関係です：アテンション機構は現在フレームの処理と検索された履歴の処理のどちらかを選ばなければなりません。

これらの結果は、強力なストリーミングVLMが既に優れた短期間推論器であることを示唆しています。履歴コンテキストを注入すると、ノイズ、圧縮アーティファクト、またはアテンション希釈が生じ、過去の内容が本当に関連していても、モデルの現在シーンについての推論能力が低下します。

結論と示唆

SIMPLESTREAMは、最低ピークGPUメモリを維持しつつ、レイテンシ競争力を保ったまま、OVO-BenchとStreamingBenchの両方で最近公開された複雑なメモリ機構を持つストリーミングシステムを既に上回るほど強力です。これは、強力なメモリ機構がストリーミング動画理解の進歩に必要という一般的な前提に挑戦します。

モデル開発者へ

強力な現代VLMバックボーン + 短い最近ウィンドウが既にSOTA。同一評価プロトコルでこのシンプルなベースラインを明確に上回る場合にのみ、メモリの複雑さを追加してください。

ベンチマーク設計者へ

将来のストリーミングベンチマークでは、直近シーン知覚と長期記憶を分離することで、追加された複雑さによる性能向上を正確に評価できるようにしてください。

arXivで全文を読む ↗

参考文献（40件以上）

Qian et al. (2024, 2025). Streaming video understanding with memory mechanisms. arXiv.
Li et al. (2025b). OVO-Bench: How Far is Your Video-Language Model from a Proficient Omnidirectional Video Observer? arXiv:2501.05510.
Lin et al. (2024). StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding. arXiv:2411.03628.
Zhang et al. (2026). HERMES: A Unified Self-Driving Perception, Prediction and Planning Model. arXiv:2601.08510.
Zeng et al. (2025). StreamForest: Towards Streaming Video Understanding with Tree-structured Memory. arXiv:2503.12254.
Bai et al. (2025a). Qwen3-VL Technical Report. arXiv:2504.10479.
Bai et al. (2025b). Qwen2.5-VL Technical Report. arXiv:2502.13923.
Yao et al. (2025). TimeChat-Online: Time-sensitive Multimodal Large Language Models for Streaming Video Comprehension. arXiv:2504.06958.
Di et al. (2025). Dispider: Multi-Scale Temporal Perception for Streaming Video LLMs. arXiv:2501.03218.
Lewis et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.
Radford et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. ICML (CLIP).
Xia et al. (2025). Streamo-7B: Streaming Video LLM with Latent Memory. arXiv.