⏶11
TimeChat-Online:在流视频中 80% 的视觉 Token 天然冗余
发表
由
Linli Yao 提交
作者: Linli Yao, Yicheng Li, Yuancheng Wei, Lei Li, Shuhuai Ren, Yuanxin Liu,
Kun Ouyang, Lean Wang, Shicheng Li, Sida Li, Lingpeng Kong, Qi Liu, Yuanxing Zhang, Xu Sun
摘要
在线视频平台,特别是直播服务的快速增长,对实时视频理解系统产生了迫切需求。这些系统必须处理连续的视频流并即时响应用户查询,这对当前的视频大语言模型(VideoLLMs)提出了独特的挑战。虽然现有的VideoLLMs擅长处理完整的视频,但由于无法有效处理密集、冗余的帧,它们在流媒体场景中面临显著限制。我们引入了TimeChat-Online,一种新颖的在线VideoLLM,它彻底改变了实时视频交互。其核心是我们创新的差分令牌丢弃(DTD)模块,该模块解决了流媒体视频中视觉冗余的根本挑战。DTD借鉴人类视觉感知中的变化盲视现象,保留了有意义的时间变化,同时过滤掉了帧间静态、冗余的内容。值得注意的是,我们的实验表明,DTD在降低82.8%视频令牌的同时,在StreamingBench上保持了98%的性能,揭示了流媒体视频中超过80%的视觉内容天然冗余,无需语言指导。为了实现无缝实时交互,我们提出了TimeChat-Online-139K,一个全面的流媒体视频数据集,包含多种交互模式,包括回溯、当前感知和未来响应场景。TimeChat-Online独特的“主动响应”能力,通过DTD对视频场景过渡的持续监控自然实现,使其区别于传统方法。我们的广泛评估表明,TimeChat-Online在流媒体基准(StreamingBench和OvOBench)上表现优越,并在Video-MME和MLVU等长视频任务上保持了竞争力。
评论
论文提交者