⏶21
ShotBench: 视觉-语言模型中的专家级电影理解
发表
由
Yuhao Dong 提交

作者: Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu
摘要
电影摄影,作为电影的基本视觉语言,对于传达叙事、情感和美学品质至关重要。虽然最近的视觉-语言模型(VLMs)展现出强大的通用视觉理解能力,但它们在理解单个镜头中蕴含的细致入微的电影语法方面的熟练程度仍未得到充分探索,并且缺乏强有力的评估。这一关键空白限制了细粒度视觉理解以及AI辅助视频生成的精确性。为了解决这个问题,我们推出了ShotBench,这是一个专门为电影语言理解设计的综合基准。它包含来自图像和视频片段的3500多个专家标注的问答对,这些问答对经过精心策划,来源于200多部知名(主要为奥斯卡提名)电影,涵盖了八个关键的电影摄影维度。我们对ShotBench上24个领先VLM的评估揭示了它们存在的重大局限性:即使是表现最佳的模型,其平均准确率也低于60%,尤其在处理细粒度视觉线索和复杂空间推理方面表现不佳。为了促进该领域的进步,我们构建了ShotQA,一个包含约7万个电影问答对的大规模多模态数据集。利用ShotQA,我们通过监督微调和群组相对策略优化开发了ShotVL。ShotVL在ShotBench上显著优于所有现有开源和专有模型,确立了新的最先进性能。我们开源了我们的模型、数据和代码,以促进AI驱动的电影理解和生成这一关键领域的快速发展。
ShotBench:视觉语言模型中的专家级影视理解