⏶13
StreamBridge: 将您的离线视频大语言模型转化为主动的流媒体助手
发表
由
WANG HAIBO 提交
作者:
Haibo Wang, Bo Feng,
Zhengfeng Lai, Mingze Xu,
Shiyu Li, Weifeng Ge,
Afshin Dehghan, Meng Cao, Ping Huang

摘要
我们提出 StreamBridge,这是一个简单而有效的框架,能够无缝地将离线视频大模型转换为具备流式处理能力的模型。它解决了将现有模型应用于在线场景时的两个根本性挑战:(1) 多轮实时理解能力有限,以及 (2) 缺乏主动响应机制。具体来说,StreamBridge 引入了 (1) 一个记忆缓冲区结合轮次衰减压缩策略,以支持长上下文多轮交互,以及 (2) 一个解耦的轻量级激活模型,可以轻松集成到现有视频大模型中,从而实现持续的主动响应。为了进一步支持 StreamBridge,我们构建了 Stream-IT,这是一个大规模数据集,专为流式视频理解量身定制,包含交错的视频-文本序列和多样化的指令格式。大量实验表明,StreamBridge 显著提高了离线视频大模型在各种任务上的流式理解能力,甚至超越了 GPT-4o 和 Gemini 1.5 Pro 等专有模型。同时,它在标准视频理解基准上取得了具有竞争力或更优的性能。
我们提出了 StreamBridge,这是一个将离线视频大模型转换为流式模型的框架。