TimeChat-Online:在流视频中 80% 的视觉 Token 天然冗余

发表
Linli YaoLinli Yao 提交
作者: Linli Yao, Yicheng Li, Yuancheng Wei, Lei Li, Shuhuai Ren, Yuanxin Liu, kun ouyangKun Ouyang, Lean Wang, Shicheng Li, Sida Li, Lingpeng Kong, Qi Liu, Yuanxing Zhang, Xu Sun

摘要

在线视频平台,特别是直播服务的快速增长,对实时视频理解系统产生了迫切需求。这些系统必须处理连续的视频流并即时响应用户查询,这对当前的视频大语言模型(VideoLLMs)提出了独特的挑战。虽然现有的VideoLLMs擅长处理完整的视频,但由于无法有效处理密集、冗余的帧,它们在流媒体场景中面临显著限制。我们引入了TimeChat-Online,一种新颖的在线VideoLLM,它彻底改变了实时视频交互。其核心是我们创新的差分令牌丢弃(DTD)模块,该模块解决了流媒体视频中视觉冗余的根本挑战。DTD借鉴人类视觉感知中的变化盲视现象,保留了有意义的时间变化,同时过滤掉了帧间静态、冗余的内容。值得注意的是,我们的实验表明,DTD在降低82.8%视频令牌的同时,在StreamingBench上保持了98%的性能,揭示了流媒体视频中超过80%的视觉内容天然冗余,无需语言指导。为了实现无缝实时交互,我们提出了TimeChat-Online-139K,一个全面的流媒体视频数据集,包含多种交互模式,包括回溯、当前感知和未来响应场景。TimeChat-Online独特的“主动响应”能力,通过DTD对视频场景过渡的持续监控自然实现,使其区别于传统方法。我们的广泛评估表明,TimeChat-Online在流媒体基准(StreamingBench和OvOBench)上表现优越,并在Video-MME和MLVU等长视频任务上保持了竞争力。
查看 arXiv 页面查看 PDF

评论

Linli YaoLinli Yao
论文提交者

image.png