⏶10
VideoMolmo:时空定位遇上指向
发表
由
Ahmed Heakl 提交

作者:
Ghazi Shazan Ahmad,
Ahmed Heakl,
Hanan Gani, Abdelrahman Shaker, Zhiqiang Shen, Ranjay Krishna, Fahad Shahbaz Khan, Salman Khan


摘要
时空定位对于跨越生物研究、自动导航和交互界面等多样化领域的精确交互至关重要。当前的基于视频的方法虽然擅长跟踪,但缺乏大语言模型复杂的推理能力,这限制了它们的上下文理解和泛化能力。我们引入了VideoMolmo,一个大型多模态模型,专为基于文本描述的细粒度时空指向而设计。VideoMolmo基于Molmo架构,融入了一个利用注意力机制的时序模块,以将每一帧基于其前序帧进行条件化处理,从而确保时间一致性。此外,我们新颖的时序掩码融合管道采用SAM2进行双向点传播,显著增强了视频序列间的连贯性。这种两步分解,即首先使用LLM生成精确的指向坐标,然后依靠顺序掩码融合模块生成连贯的分割,不仅简化了语言模型的任务,还增强了可解释性。由于缺乏合适的数据集,我们整理了一个包含7.2万个视频-字幕对(标注了10万个对象点)的综合数据集。为了评估VideoMolmo的泛化能力,我们引入了VPoS-Bench,一个涵盖细胞跟踪、自我中心视觉、自动驾驶、视频-GUI交互和机器人技术五种真实世界场景的挑战性域外基准。我们还在参照视频目标分割(Refer-VOS)和推理VOS任务上评估了我们的模型。与现有模型相比,VideoMolmo显著提高了时空指向精度和推理能力。我们的代码和模型可在https://github.com/mbzuai-oryx/VideoMolmo公开获取。
评论

论文作者
论文提交者
更多示例。
https://cdn-uploads.huggingface.co/production/uploads/656864e12d73834278a8dea7/VoUcOufMSsfeQBfp8p0DE.mp4
https://cdn-uploads.huggingface.co/production/uploads/656864e12d73834278a8dea7/1se6ooua7zEHAtWWxteVO.mp4
https://cdn-uploads.huggingface.co/production/uploads/656864e12d73834278a8dea7/nQulJI_QLDHsylN3CIcqP.mp4
https://cdn-uploads.huggingface.co/production/uploads/656864e12d73834278a8dea7/ajUDS6J5YpRHrkzakJ2BE.mp4
https://cdn-uploads.huggingface.co/production/uploads/656864e12d73834278a8dea7/4nhABjJlDwCy51PViTGIV.mp4
VideoMolmo 是一个大型多模态模型,专门针对基于文本描述的精细时空指向。VideoMolmo 在 Molmo 架构的基础上,整合了一个时间模块,利用注意力机制将每一帧与前一帧关联起来,确保时间上的一致性。此外,我们新颖的时间掩码融合管道采用 SAM2 进行双向点传播,显著增强了视频序列的连贯性。这种两步分解,即首先使用大型语言模型生成精确的指向坐标,然后依赖于顺序掩码融合模块生成连贯的分割,不仅简化了语言模型的任务,还增强了解释性。由于缺乏合适的可用数据集,我们整理了一个包含 7.2 万个视频-字幕对,并标注了 10 万个对象点的综合数据集。为了评估 VideoMolmo 的泛化能力,我们引入了 VPoS-Bench,这是一个具有挑战性的分布外基准测试,涵盖五个现实世界场景:细胞追踪、第一人称视角、自动驾驶、视频-GUI 交互和机器人技术。我们还在参照视频对象分割(Refer-VOS)和推理 VOS 任务上评估了我们的模型。与现有模型相比,VideoMolmo 大幅提升了时空指向精度和推理能力。
https://cdn-uploads.huggingface.co/production/uploads/656864e12d73834278a8dea7/zcRxEKZyoOWpOGPDEFzKn.mp4