---
arxiv_id: 2604.02317
title: "ストリーミング動画理解のためのシンプルなベースライン | Flecto"
authors:
  - Yujiao Shen
  - Shulin Tian
  - Jingkang Yang
  - Ziwei Liu
difficulty: Intermediate
tags:
  - Video
  - VLM
  - Streaming
  - Benchmark
published_at: 2026-04-02
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.02317/
lang: ja
---

> ストリーミング動画理解のためのシンプルなベースライン

**著者**: Yujiao Shen · Shulin Tian · Jingkang Yang · Ziwei Liu

## Abstract

最近のストリーミング動画理解手法は、長時間動画ストリームを処理するために複雑なメモリ機構への依存度を高めています。本研究では、この傾向に対してシンプルな発見で挑戦します：直近のNフレームのみを既製のVLMに入力するスライディングウィンドウベースラインが、既存のストリーミングモデルに既に匹敵または凌駕するのです。このベースラインを SIMPLESTREAM として形式化し、OVO-BenchとStreamingBenchの13の主要なオフライン・オンライン動画LLMベースラインと比較評価しました。そのシンプルさにもかかわらず、SIMPLESTREAMは一貫して強力な性能を発揮します。わずか4フレームで、OVO-Benchの平均精度 67.7% 、StreamingBench 80.59% を達成。また、長いコンテキストの有用性はモデルスケールで均一に向上するのではなくバックボーン依存であること、そして一貫した 知覚-記憶トレードオフ （履歴コンテキストを増やすと記憶は改善するがリアルタイム知覚が低下する）を明らかにしました。

## Results

### ベンチマーク結果

### SIMPLESTREAMは統一プロトコルのもと、OVO-BenchとStreamingBenchの13のベースラインと比較評価されています。

## Conclusion

### 結論と示唆

SIMPLESTREAMは、最低ピークGPUメモリを維持しつつ、レイテンシ競争力を保ったまま、OVO-BenchとStreamingBenchの両方で最近公開された複雑なメモリ機構を持つストリーミングシステムを既に上回るほど強力です。これは、強力なメモリ機構がストリーミング動画理解の進歩に必要という一般的な前提に挑戦します。

## References

### 参考文献（40件以上）

## Head Title

### ストリーミング動画理解のためのシンプルなベースライン | Flecto

## Head Meta

SimpleStream：直近のNフレームだけをVLMに入力するスライディングウィンドウベースラインが、既存の複雑なストリーミングモデルに匹敵または凌駕。わずか4フレームでOVO-Bench 67.7%、StreamingBench 80.59%を達成。

## Hero Button

### arXivで読む ↗

### 結果を見る

## Key Findings

### 主要な発見

## Key Findings Card=1

### わずか4フレームでSOTA達成

### 67.7% OVO-Bench

### SimpleStream（Qwen3-VL、4フレーム）は、HERMESを含む全ての公開ストリーミング手法を+8.5ポイント上回る。

## Key Findings Card=2

### 最小GPUメモリ

### 〜15.6 GB 一定

### 固定スライディングウィンドウにより、ストリーム長に関係なくピークGPUメモリが一定。他手法は18〜20 GBまで増大する。

## Key Findings Card=3

### 最速推論

### 35〜38 ms TTFT

### SimpleStreamはHERMESと並ぶ最速クラスのレイテンシを達成。特殊なメモリモジュールなしで実現。

## Overview

### SimpleStreamとは何か？

### 意図的なミニマリスト設計

時刻 t でのクエリに対して、SIMPLESTREAMは最後の N フレームとクエリテキストを基盤となるVLMに直接入力するだけです。設計は意図的に最小限：短い最近ウィンドウのみを保持し、強力なバックボーンが明確で非圧縮の直近証拠を処理します。

SIMPLESTREAMは、従来のストリーミングシステムが使用する追加メモリ機構を意図的に省略しています。スライディングウィンドウ外のフレームは破棄されるため、クエリごとのメモリと計算量はストリームの長さに関わらず一定に保たれます。

## Overview Figure_001

図1(a)： SimpleStreamは直近のNフレームのみをVLMに直接入力します。メモリバンク・検索・圧縮は一切なし。上段：Context Management層を持つ複雑なストリーミングVLM。下段：SIMPLESTREAMの最小設計。

## Overview Figure_002

図2： 従来のストリーミングVLMは、External Memory・Retrieval・Compression・Latent Memoryを介して長いコンテキストを管理します。これらの複雑さをSIMPLESTREAMは意図的に回避します。

## Results Table_001

表1： OVO-BenchとStreamingBenchの主要結果。SIMPLESTREAM（Qwen3-VL-8B、4フレーム）はOVO-Bench平均 67.70% 、StreamingBench 80.59% を達成し、全ての公開ストリーミング手法を上回る。

## Results Callout

### SimpleStreamが全ての公開ストリーミング手法を上回る

### OVO-Bench 67.7%（4フレーム）— HERMESを +8.5pp 上回る

### StreamingBench 80.59% — 報告されている最高スコア

### 最低ピークGPUメモリ：〜15.6 GB一定 vs. 競合手法は最大20 GB

### TTFT：35〜38 ms — 最速の公開手法（HERMES）と同等

## Efficiency

### 効率性：メモリとレイテンシ

## Efficiency Figure_003

### 図3： ピークGPUメモリ vs 観測フレーム数。SimpleStream-4fはストリーム長に関わらず約15.6 GBで一定。競合手法は18〜20 GBまで増大する。

## Efficiency Table_003

### 表3： 16/64/256フレームでのTTFT（ms）。SimpleStream-4f： 35/33/38 ms — 最速の公開手法に匹敵。

## Analysis

### 分析：なぜシンプルさが勝つのか？

ストリーミング動画理解での一般的な前提は、より多くの履歴コンテキストが回答を改善するというものです。しかし、ウィンドウサイズアブレーションでは、4フレームが既に最適であり、それを超えるとリアルタイム知覚精度が実際に 低下する ことが示されました。16フレームウィンドウに拡大すると、リアルタイム精度が81.4%から77.9%に低下します。

これらの結果は、強力なストリーミングVLMが既に優れた短期間推論器であることを示唆しています。履歴コンテキストを注入すると、ノイズ、圧縮アーティファクト、またはアテンション希釈が生じ、過去の内容が本当に関連していても、モデルの現在シーンについての推論能力が低下します。

## Analysis Window

### 長いコンテキストが常に良いわけではない

## Analysis Figure_004

### 図4： ウィンドウサイズアブレーション。リアルタイム精度は4フレームでピーク（81.4%）に達し、以降低下。全体精度は4フレームを超えると急速に飽和する。

## Analysis Scale

### モデルスケールの影響

## Analysis Figure_005

図5： OVO-Benchでのモデルスケーリングアブレーション。最適ウィンドウサイズはバックボーン依存であり、モデルスケールに比例して均一に大きくなるわけではない。Qwen2.5-VL-72Bは16フレームを好み、Qwen3-VL-8Bは4フレームでピーク。

## Analysis Table_002

### 表2： OVO-Benchでの固定ウィンドウ評価におけるモデルスケール効果（Qwen2.5-VLとQwen3-VLファミリー）。

## Analysis Tradeoff

### 知覚-記憶トレードオフ

## Analysis Figure_006

### 図6： 各手法の知覚-記憶トレードオフ。ほぼ全ての外部ベースラインが、リアルタイム知覚精度（AP）でSimpleStreamを下回る。履歴を追加する手法は記憶は改善するが知覚は低下する。

## Analysis Table_004

### 表4： OVO-BenchでのVisual-RAGアブレーション。過去チャンクの検索によりEPM（+7.1）とASI（+6.1）は改善するが、リアルタイム知覚は平均−2.3低下する。

## Conclusion Card=1

### モデル開発者へ

### 強力な現代VLMバックボーン + 短い最近ウィンドウが既にSOTA。同一評価プロトコルでこのシンプルなベースラインを明確に上回る場合にのみ、メモリの複雑さを追加してください。

## Conclusion Card=2

### ベンチマーク設計者へ

### 将来のストリーミングベンチマークでは、直近シーン知覚と長期記憶を分離することで、追加された複雑さによる性能向上を正確に評価できるようにしてください。

## Conclusion Cta

### arXivで全文を読む ↗
