PhysMaster:通过强化学习掌握视频生成物理表征

发表
taesiritaesiri 提交
作者: Sihui JiSihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao

摘要

AI 生成总结
PhysMaster 通过 PhysEncoder 集成物理知识来增强视频生成,利用强化学习和直接偏好优化来提高物理意识。
如今的视频生成模型能够生成视觉上逼真的视频,但却常常无法遵守物理定律,这限制了它们生成物理上合理视频和充当“世界模型”的能力。为了解决这个问题,我们提出了PhysMaster,它将物理知识捕获为一种表示,用于指导视频生成模型以增强其物理感知能力。具体来说,PhysMaster基于图像到视频的任务,在该任务中,模型需要从输入图像预测物理上合理的动态。由于输入图像提供了诸如物体相对位置和潜在交互等物理先验,我们设计了PhysEncoder来从中编码物理信息,作为注入物理知识到视频生成过程中的额外条件。由于模型除了外观之外,缺乏对其物理性能的适当监督,PhysEncoder促使我们使用基于人类反馈的强化学习来进行物理表示学习,该方法利用了生成模型的反馈,通过直接偏好优化(DPO)以端到端的方式优化物理表示。PhysMaster为提高PhysEncoder以及视频生成的物理感知能力提供了一个可行的解决方案,并在一个简单的代理任务和广泛的物理场景中证明了其通用性。这表明我们的PhysMaster通过强化学习范式中的表示学习统一了各种物理过程的解决方案,可以作为物理感知视频生成和更广泛应用的通用即插即用解决方案。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

如今的视频生成模型能够生成逼真的视觉效果,但却常常无法遵循物理定律,这限制了它们生成物理上合理视频以及充当“世界模型”的能力。为了解决这个问题,我们提出了 PhysMaster,它将物理知识捕获为一种表示,用于指导视频生成模型,以增强其物理意识。具体来说,PhysMaster 基于图像到视频任务,该任务要求模型从输入图像预测物理上合理的动力学。由于输入图像提供了诸如物体相对位置和潜在交互等物理先验信息,我们设计了 PhysEncoder 来从输入图像中编码物理信息,作为额外的条件注入到视频生成过程中。由于模型在物理性能上缺乏超越单纯外观的适当监督,PhysMaster 采用了人类反馈的强化学习来进行物理表示学习,它利用生成模型的反馈,通过直接偏好优化(DPO)来端到端地优化物理表示。PhysMaster 为增强 PhysEncoder 的物理意识以及视频生成提供了可行的解决方案,并在一个简单的代理任务和广泛的物理场景中证明了其能力。这表明我们的 PhysMaster,通过在强化学习范式中的表示学习来统一各种物理过程的解决方案,可以作为一种通用的、可插拔的解决方案,用于物理感知视频生成和更广泛的应用。