⏶6
“PhyWorldBench”:文本到视频模型中物理真实性的综合评估
发表
由
Jing Gu 提交
作者: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
摘要
视频生成模型在创建高质量、逼真的内容方面取得了显著进展。然而,它们准确模拟物理现象的能力仍然是一个关键且尚未解决的挑战。本文提出了PhyWorldBench,一个全面的基准,旨在评估视频生成模型对物理定律的遵循程度。该基准涵盖多个层面的物理现象,从物体运动和能量守恒等基本原理,到涉及刚体交互以及人类或动物运动的更复杂场景。此外,我们引入了一个新颖的“反物理”类别,其中提示词故意违反现实世界的物理定律,旨在评估模型在遵循此类指令的同时能否保持逻辑一致性。除了大规模人工评估之外,我们还设计了一种简单但有效的方法,可以利用当前的多模态大语言模型(MLLM)以零样本的方式评估物理真实性。我们评估了12个最先进的文本到视频生成模型,其中包括五个开源模型和五个专有模型,并进行了详细的比较和分析。我们确定了模型在遵守现实世界物理定律方面面临的关键挑战。通过对模型在1,050个精心策划的提示词(涵盖基本、复合和反物理场景)下的输出进行系统测试,我们确定了这些模型在遵守现实世界物理定律方面面临的关键挑战。随后,我们严格考察了它们的性能在不同提示类型下针对各种物理现象的表现,并提出了有针对性的建议,以便创建能够提高对物理原理忠实度的提示词。

由英伟达和加州大学圣克鲁兹分校共同进行的,用于评估视频生成中物理效果的彻底基准测试!