SimpleStream(Qwen3-VL、4フレーム)は、HERMESを含む全ての公開ストリーミング手法を+8.5ポイント上回る。
固定スライディングウィンドウにより、ストリーム長に関係なくピークGPUメモリが一定。他手法は18〜20 GBまで増大する。
SimpleStreamはHERMESと並ぶ最速クラスのレイテンシを達成。特殊なメモリモジュールなしで実現。
最近のストリーミング動画理解手法は、長時間動画ストリームを処理するために複雑なメモリ機構への依存度を高めています。本研究では、この傾向に対してシンプルな発見で挑戦します:直近のNフレームのみを既製のVLMに入力するスライディングウィンドウベースラインが、既存のストリーミングモデルに既に匹敵または凌駕するのです。このベースラインをSIMPLESTREAMとして形式化し、OVO-BenchとStreamingBenchの13の主要なオフライン・オンライン動画LLMベースラインと比較評価しました。そのシンプルさにもかかわらず、SIMPLESTREAMは一貫して強力な性能を発揮します。わずか4フレームで、OVO-Benchの平均精度67.7%、StreamingBench80.59%を達成。また、長いコンテキストの有用性はモデルスケールで均一に向上するのではなくバックボーン依存であること、そして一貫した知覚-記憶トレードオフ(履歴コンテキストを増やすと記憶は改善するがリアルタイム知覚が低下する)を明らかにしました。
時刻tでのクエリに対して、SIMPLESTREAMは最後のNフレームとクエリテキストを基盤となるVLMに直接入力するだけです。設計は意図的に最小限:短い最近ウィンドウのみを保持し、強力なバックボーンが明確で非圧縮の直近証拠を処理します。
SIMPLESTREAMは、従来のストリーミングシステムが使用する追加メモリ機構を意図的に省略しています。スライディングウィンドウ外のフレームは破棄されるため、クエリごとのメモリと計算量はストリームの長さに関わらず一定に保たれます。
SIMPLESTREAMは統一プロトコルのもと、OVO-BenchとStreamingBenchの13のベースラインと比較評価されています。
表1: OVO-BenchとStreamingBenchの主要結果。SIMPLESTREAM(Qwen3-VL-8B、4フレーム)はOVO-Bench平均67.70%、StreamingBench80.59%を達成し、全ての公開ストリーミング手法を上回る。
ストリーミング動画理解での一般的な前提は、より多くの履歴コンテキストが回答を改善するというものです。しかし、ウィンドウサイズアブレーションでは、4フレームが既に最適であり、それを超えるとリアルタイム知覚精度が実際に低下することが示されました。16フレームウィンドウに拡大すると、リアルタイム精度が81.4%から77.9%に低下します。
表2: OVO-Benchでの固定ウィンドウ評価におけるモデルスケール効果(Qwen2.5-VLとQwen3-VLファミリー)。
これらの結果は、強力なストリーミングVLMが既に優れた短期間推論器であることを示唆しています。履歴コンテキストを注入すると、ノイズ、圧縮アーティファクト、またはアテンション希釈が生じ、過去の内容が本当に関連していても、モデルの現在シーンについての推論能力が低下します。
SIMPLESTREAMは、最低ピークGPUメモリを維持しつつ、レイテンシ競争力を保ったまま、OVO-BenchとStreamingBenchの両方で最近公開された複雑なメモリ機構を持つストリーミングシステムを既に上回るほど強力です。これは、強力なメモリ機構がストリーミング動画理解の進歩に必要という一般的な前提に挑戦します。
強力な現代VLMバックボーン + 短い最近ウィンドウが既にSOTA。同一評価プロトコルでこのシンプルなベースラインを明確に上回る場合にのみ、メモリの複雑さを追加してください。
将来のストリーミングベンチマークでは、直近シーン知覚と長期記憶を分離することで、追加された複雑さによる性能向上を正確に評価できるようにしてください。