StreamVLN:通过慢快上下文建模实现的流式视觉与语言导航

发表
Tai WangTai Wang 提交
作者: Meng Wei, Chenyang WanChenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, hanqingwangHanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang

摘要

真实世界场景中的视觉-语言导航(VLN)要求智能体处理连续视觉流并生成基于语言指令的低延迟动作。尽管基于视频的大型语言模型(Video-LLM)推动了近期进展,但当前基于Video-LLM的VLN方法常在细粒度视觉理解、长期上下文建模和计算效率之间面临权衡。我们引入了StreamVLN,一个流式VLN框架,它采用混合的慢速-快速上下文建模策略,以支持对交错的视觉、语言和动作输入进行多模态推理。快速流式对话上下文通过活跃对话的滑动窗口促进响应式动作生成,而慢速更新的记忆上下文则使用3D感知令牌剪枝策略压缩历史视觉状态。凭借这种慢速-快速设计,StreamVLN通过高效的KV缓存重用实现了连贯的多轮对话,支持具有有限上下文大小和推理成本的长时间视频流。在VLN-CE基准测试上的实验证明了其最先进的性能和稳定的低延迟,确保了在真实世界部署中的鲁棒性和效率。项目页面是:https://streamvln.github.io/
查看 arXiv 页面查看 PDF

评论

Tai WangTai Wang
论文提交者

StreamVLN:通过慢快上下文建模实现的流式视觉与语言导航

Qian WuQian Wu

孟洁最棒