VF-Eval:评估多模态LLM在生成AIGC视频反馈方面的能力

发表
Tingyu SongTingyu Song 提交
作者: Tingyu SongTingyu Song, Tongyan HuTongyan Hu, Guo Gan, Yilun ZhaoYilun Zhao

摘要

近期,MLLMs在视频问答领域得到了广泛研究。然而,现有的大多数评估都侧重于自然视频,而忽略了合成视频,例如AI生成内容(AIGC)。同时,一些视频生成方面的工作依赖MLLMs来评估生成视频的质量,但MLLMs在理解AIGC视频方面的能力仍未得到充分探索。为了解决这个问题,我们提出了一个新的基准VF-Eval,它引入了四个任务——连贯性验证、错误感知、错误类型检测和推理评估——以全面评估MLLMs在AIGC视频上的能力。我们在VF-Eval上评估了13个前沿MLLMs,发现即使是性能最好的模型GPT-4.1,也很难在所有任务上持续保持良好表现。这突显了我们基准的挑战性。此外,为了探讨VF-Eval在改进视频生成方面的实际应用,我们进行了一项实验RePrompt,证明将MLLMs与人类反馈更紧密地对齐可以有益于视频生成。
查看 arXiv 页面查看 PDF
VF-Eval:评估多模态LLM在生成AIGC视频反馈方面的能力

评论

Tingyu SongTingyu Song
论文作者
论文提交者

我们引入了VF-Eval,这是一个用于评估多模态大型语言模型(MLLMs)在AI生成视频上的基准测试,通过连贯性验证、错误检测和推理任务来揭示当前模型能力的重大不足。