⏶24
VideoScore2:生成视频评估中,三思而后评
发表
由
Wenhu Chen 提交

作者:
Xuan He,
Dongfu Jiang,
Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin,
Chun Ye,
Yi Lu,
Keming Wu, Benjamin Schneider, Quy Duc Do,
Zhuofeng Li, Yiming Jia,
Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen





摘要
AI 生成总结
VideoScore2 是一个用于评估文本到视频生成的多维度、可解释框架,通过详细的解释来评估视觉质量、对齐度和一致性。文本到视频生成领域的最新进展产生了越来越逼真和多样化的内容,然而,由于视频的多方面性质,包括视觉质量、语义对齐和物理一致性,对其进行评估仍然是一个基本挑战。现有的评估器和奖励模型仅限于单一的、不透明的分数,缺乏可解释性,或仅提供粗略的分析,不足以捕捉视频质量评估的全面性质。我们提出了 VideoScore2,一个多维度、可解释且与人类对齐的框架,它明确评估视觉质量、文本到视频对齐以及物理/常识一致性,同时生成详细的思维链推理。我们的模型在一个包含 27,168 个经过人工标注的视频的大型数据集 VideoFeedback2 上进行训练,该数据集包含三个维度的分数和推理轨迹,采用监督微调后进行强化学习(使用群体相对策略优化 GRPO)的两阶段流程来增强分析鲁棒性。广泛的实验表明,VideoScore2 在我们的领域内基准 VideoScore-Bench-v2 上取得了 44.35 (+5.94) 的准确率,在四个领域外基准(VideoGenReward-Bench、VideoPhy2 等)上的平均性能为 50.37 (+4.32),同时提供了可解释的评估,通过有效的奖励建模用于“最佳 N 个样本”选择,从而弥合了评估与可控生成之间的差距。项目主页:https://tiger-ai-lab.github.io/VideoScore2/
文本到视频生成技术的最新进展产生了越来越逼真和多样化的内容,但由于其多方面性质(包括视觉质量、语义对齐和物理一致性),评估这些视频仍然是一个基本挑战。现有的评估器和奖励模型仅限于单一的不透明分数,缺乏可解释性,或仅提供粗略的分析,不足以捕捉视频质量评估的全面性。我们提出了 VideoScore2,一个多维度、可解释且与人类对齐的框架,它明确评估视觉质量、文本到视频对齐以及物理/常识一致性,同时生成详细的思维链推理。我们的模型在包含 27,168 个经过人类标注的视频的大型数据集 VideoFeedback2 上进行训练,该数据集包含三个维度上的分数和推理轨迹,并使用监督微调和具有组相对策略优化(GRPO)的强化学习的两阶段管道来提高分析鲁棒性。广泛的实验表明,VideoScore2 在我们的领域内基准 VideoScore-Bench-v2 上取得了 44.35 (+5.94) 的准确率,在四个领域外基准(VideoGenReward-Bench、VideoPhy2 等)上平均性能为 50.37 (+4.32),同时提供可解释的评估,通过有效的奖励建模实现 Best-of-N 采样,从而弥合了评估与可控生成之间的差距。