VideoScore2:生成视频评估中,三思而后评

发表
Wenhu ChenWenhu Chen 提交
作者: Xuan HeXuan He, Dongfu JiangDongfu Jiang, Ping NiePing Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Daisy YeChun Ye, Tom LuYi Lu, Keming WuKeming Wu, Benjamin Schneider, Quy Duc Do, ZhuofengLiZhuofeng Li, Yiming Jia, Yuxuan ZhangYuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen

摘要

AI 生成总结
VideoScore2 是一个用于评估文本到视频生成的多维度、可解释框架,通过详细的解释来评估视觉质量、对齐度和一致性。
文本到视频生成领域的最新进展产生了越来越逼真和多样化的内容,然而,由于视频的多方面性质,包括视觉质量、语义对齐和物理一致性,对其进行评估仍然是一个基本挑战。现有的评估器和奖励模型仅限于单一的、不透明的分数,缺乏可解释性,或仅提供粗略的分析,不足以捕捉视频质量评估的全面性质。我们提出了 VideoScore2,一个多维度、可解释且与人类对齐的框架,它明确评估视觉质量、文本到视频对齐以及物理/常识一致性,同时生成详细的思维链推理。我们的模型在一个包含 27,168 个经过人工标注的视频的大型数据集 VideoFeedback2 上进行训练,该数据集包含三个维度的分数和推理轨迹,采用监督微调后进行强化学习(使用群体相对策略优化 GRPO)的两阶段流程来增强分析鲁棒性。广泛的实验表明,VideoScore2 在我们的领域内基准 VideoScore-Bench-v2 上取得了 44.35 (+5.94) 的准确率,在四个领域外基准(VideoGenReward-Bench、VideoPhy2 等)上的平均性能为 50.37 (+4.32),同时提供了可解释的评估,通过有效的奖励建模用于“最佳 N 个样本”选择,从而弥合了评估与可控生成之间的差距。项目主页:https://tiger-ai-lab.github.io/VideoScore2/
查看 arXiv 页面查看 PDF

评论

Wenhu ChenWenhu Chen
论文提交者

文本到视频生成技术的最新进展产生了越来越逼真和多样化的内容,但由于其多方面性质(包括视觉质量、语义对齐和物理一致性),评估这些视频仍然是一个基本挑战。现有的评估器和奖励模型仅限于单一的不透明分数,缺乏可解释性,或仅提供粗略的分析,不足以捕捉视频质量评估的全面性。我们提出了 VideoScore2,一个多维度、可解释且与人类对齐的框架,它明确评估视觉质量、文本到视频对齐以及物理/常识一致性,同时生成详细的思维链推理。我们的模型在包含 27,168 个经过人类标注的视频的大型数据集 VideoFeedback2 上进行训练,该数据集包含三个维度上的分数和推理轨迹,并使用监督微调和具有组相对策略优化(GRPO)的强化学习的两阶段管道来提高分析鲁棒性。广泛的实验表明,VideoScore2 在我们的领域内基准 VideoScore-Bench-v2 上取得了 44.35 (+5.94) 的准确率,在四个领域外基准(VideoGenReward-Bench、VideoPhy2 等)上平均性能为 50.37 (+4.32),同时提供可解释的评估,通过有效的奖励建模实现 Best-of-N 采样,从而弥合了评估与可控生成之间的差距。