VideoMolmo:时空定位遇上指向

发表
Ahmed HeaklAhmed Heakl 提交
作者: GHAZI SHAZAN AHMADGhazi Shazan Ahmad, Ahmed HeaklAhmed Heakl, Hanan GaniHanan Gani, Abdelrahman Shaker, Zhiqiang Shen, Ranjay Krishna, Fahad Shahbaz Khan, Salman Khan

摘要

时空定位对于跨越生物研究、自动导航和交互界面等多样化领域的精确交互至关重要。当前的基于视频的方法虽然擅长跟踪,但缺乏大语言模型复杂的推理能力,这限制了它们的上下文理解和泛化能力。我们引入了VideoMolmo,一个大型多模态模型,专为基于文本描述的细粒度时空指向而设计。VideoMolmo基于Molmo架构,融入了一个利用注意力机制的时序模块,以将每一帧基于其前序帧进行条件化处理,从而确保时间一致性。此外,我们新颖的时序掩码融合管道采用SAM2进行双向点传播,显著增强了视频序列间的连贯性。这种两步分解,即首先使用LLM生成精确的指向坐标,然后依靠顺序掩码融合模块生成连贯的分割,不仅简化了语言模型的任务,还增强了可解释性。由于缺乏合适的数据集,我们整理了一个包含7.2万个视频-字幕对(标注了10万个对象点)的综合数据集。为了评估VideoMolmo的泛化能力,我们引入了VPoS-Bench,一个涵盖细胞跟踪、自我中心视觉、自动驾驶、视频-GUI交互和机器人技术五种真实世界场景的挑战性域外基准。我们还在参照视频目标分割(Refer-VOS)和推理VOS任务上评估了我们的模型。与现有模型相比,VideoMolmo显著提高了时空指向精度和推理能力。我们的代码和模型可在https://github.com/mbzuai-oryx/VideoMolmo公开获取。
查看 arXiv 页面查看 PDF

评论

Ahmed HeaklAhmed Heakl
论文作者
论文提交者

VideoMolmo 是一个大型多模态模型,专门针对基于文本描述的精细时空指向。VideoMolmo 在 Molmo 架构的基础上,整合了一个时间模块,利用注意力机制将每一帧与前一帧关联起来,确保时间上的一致性。此外,我们新颖的时间掩码融合管道采用 SAM2 进行双向点传播,显著增强了视频序列的连贯性。这种两步分解,即首先使用大型语言模型生成精确的指向坐标,然后依赖于顺序掩码融合模块生成连贯的分割,不仅简化了语言模型的任务,还增强了解释性。由于缺乏合适的可用数据集,我们整理了一个包含 7.2 万个视频-字幕对,并标注了 10 万个对象点的综合数据集。为了评估 VideoMolmo 的泛化能力,我们引入了 VPoS-Bench,这是一个具有挑战性的分布外基准测试,涵盖五个现实世界场景:细胞追踪、第一人称视角、自动驾驶、视频-GUI 交互和机器人技术。我们还在参照视频对象分割(Refer-VOS)和推理 VOS 任务上评估了我们的模型。与现有模型相比,VideoMolmo 大幅提升了时空指向精度和推理能力。
https://cdn-uploads.huggingface.co/production/uploads/656864e12d73834278a8dea7/zcRxEKZyoOWpOGPDEFzKn.mp4

Ahmed HeaklAhmed Heakl
论文作者
论文提交者

image.png
给定自然语言中复杂的指代表达,VIDEOMOLMO 在视觉定位中展示了改进的时空推理能力。通过将视觉定位任务分解为
顺序步骤——首先指向(由星号表示),然后生成掩码(红色)——VIDEOMOLMO
与现有方法相比,生成了更准确、更连贯的分割掩码。

Ahmed HeaklAhmed Heakl
论文作者
论文提交者

image.png
VideoMolmo 架构。视觉编码器从当前帧和前 l 帧中提取多裁剪特征。这些时间特征提供上下文线索,并通过时间模块 M 进行多头交叉注意力处理,其中查询来自当前帧,键和值来自前几帧的平均值。输出与原始特征融合,以丰富时间线索,同时保留当前帧的空间细节。然后将组合的视觉-文本表示传递给大型语言模型以预测定位点。这些点使用我们的双向时间掩码融合模块转换为掩码,确保像素级别的时空一致性定位。

Ahmed HeaklAhmed Heakl
论文作者
论文提交者

image.png
VIDEOMOLMO 标注流程:我们使用半自动过程从帧级掩码构建点级监督。对于每一帧,在掩码上采样 k 个点并
传递给 SAM2 以生成候选掩码。选择具有最高 IoU 候选掩码(相对于真实情况)的点作为最佳标注。