⏶155
迈向理解任何视频中的摄像机运动
发表
由
Alan 提交
作者:
Zhiqiu Lin,
Siyuan Cen,
Daniel Jiang,
Jay Karhade,
Hewei Wang,
Chancharik Mitra, Tiffany Ling,
Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai,
Yilun Du, Chuang Gan,
Deva Ramanan

摘要
我们引入了 CameraBench,这是一个大型数据集和基准,旨在评估和改进相机运动理解。CameraBench 包含约3,000个不同的互联网视频,这些视频由专家通过严格的多阶段质量控制流程进行标注。我们的贡献之一是一个相机运动基元的分类体系,这是与电影摄影师合作设计的。例如,我们发现一些运动,如“跟随”(或跟踪),需要理解场景内容,例如移动的主体。我们进行了一项大规模的人工标注研究,以量化人工标注的表现,研究表明领域专业知识和基于教程的训练可以显著提高准确性。例如,新手可能会将放大(内参变化)与向前平移(外参变化)混淆,但可以通过训练学会区分两者。利用 CameraBench,我们评估了运动恢复结构(SfM)和视频-语言模型(VLMs),发现 SfM 模型难以捕捉依赖于场景内容的语义基元,而 VLMs 难以捕捉需要精确轨迹估计的几何基元。然后,我们在 CameraBench 上微调了一个生成式 VLM,以兼具两者的优点,并展示了其应用,包括运动增强字幕生成、视频问答和视频-文本检索。我们希望我们的分类体系、基准和教程将推动未来的研究,迈向理解任何视频中相机运动的最终目标。
评论
论文作者
论文提交者