⏶15
Vidi:用于视频理解与编辑的大型多模态模型
发表
由
Sijie Zhu 提交
作者: Vidi Team,
Celong Liu,
Chia-Wen Kuo,
Dawei Du,
Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li,
Longyin Wen, Qingyu Chen,
Rachel Deng,
Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong,
Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
摘要
人类自然地与他们有联系的人分享信息,而视频已成为互联网上交流和表达的主要媒介之一。为了支持高质量大规模视频内容的创作,现代管道需要对原始输入素材(例如相机捕捉的未编辑片段)和编辑组件(例如视觉效果)有全面的理解。在视频编辑场景中,模型必须处理多种模态(例如视觉、音频、文本),拥有丰富的背景知识,并处理灵活的输入长度(例如长达数小时的原始视频),这对传统模型构成了重大挑战。在本报告中,我们介绍了 Vidi,一个用于广泛视频理解编辑场景的大型多模态模型(LMMs)家族。第一个版本专注于时间检索,即根据给定的文本查询识别输入视频中的时间范围,这在智能编辑中起着关键作用。该模型能够处理长达数小时的视频,并具有强大的时间理解能力,例如检索某些查询的时间范围。为了支持在现实世界场景中的全面评估,我们还提出了 VUE-TR 基准,该基准引入了五项关键改进。1)视频时长:显著长于现有时间检索数据集,2)音频支持:包含基于音频的查询,3)查询格式:多样化的查询长度/格式,4)标注质量:真实时间范围是人工标注的。5)评估指标:一个改进的 IoU 指标,支持对多个时间范围进行评估。值得注意的是,Vidi 在时间检索任务上显著优于领先的专有模型,例如 GPT-4o 和 Gemini,表明其在视频编辑场景中的优越性。
主页: https://bytedance.github.io/vidi-website/ Arxiv: https://arxiv.org/pdf/2504.15681 Github: https://github.com/bytedance/vidi