⏶25
MotionSight:提升多模态大型语言模型中的细粒度运动理解
发表
由
tiehan fan 提交

作者: Yipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang,
Ying Tai
摘要
尽管多模态大型语言模型(MLLMs)取得了进展,但它们在细粒度视频运动理解方面的能力仍然受到严重限制。它们通常缺乏帧间差异分析能力,并且倾向于平均或忽略细微的视觉线索。此外,虽然视觉提示在静态图像中显示出潜力,但其在视频时间复杂性中的应用,特别是对于细粒度运动理解,仍未得到充分探索。我们研究是否可以解锁固有能力并提升 MLLMs 的运动感知,并实现量身定制的独特视觉签名,以解耦物体和相机运动线索。在本研究中,我们引入了 MotionSight,这是一种新颖的零样本方法,率先将以物体为中心的视觉聚光灯和运动模糊作为视觉提示,无需训练即可有效改善细粒度运动理解。为了将其转化为有价值的数据资产,我们整理了 MotionVid-QA,这是第一个用于细粒度视频运动理解的大规模数据集,具有分层标注,包括 SFT 和偏好数据,以及约 40K 个视频片段和约 87K 个问答对。实验表明,MotionSight 取得了最先进的开源性能,并与商业模型具有竞争力。特别是,对于细粒度运动理解,我们提出了一种新颖的零样本技术和一个大规模、高质量的数据集。所有代码和标注都将公开可用。
MotionSight: 一种用于MLLM细粒度视频动作理解的零样本方法和数据集 (MotionVid-QA)。