RealDPO:真实还是不真实,这才是偏好

发表
Ziqi HuangZiqi Huang 提交
作者: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu

摘要

AI 生成总结
RealDPO 是一种使用真实世界数据的新型偏好学习范式,通过直接偏好优化和迭代自我校正来增强视频生成模型中的运动真实感。
视频生成模型在合成质量方面取得了显著进展;然而,生成复杂运动仍然是一个严峻的挑战,因为现有模型通常难以产生自然、流畅且上下文一致的运动。生成运动与真实世界运动之间的差距限制了它们的实际应用。为了解决这个问题,我们提出了 RealDPO,一种新颖的对齐范式,它利用真实世界数据作为偏好学习的正样本,从而实现更准确的运动合成。与提供有限纠正反馈的传统监督微调(SFT)不同,RealDPO 采用直接偏好优化(DPO)和定制的损失函数来增强运动真实感。通过将真实世界的视频与有错误的模型输出进行对比,RealDPO 能够进行迭代自纠正,逐步完善运动质量。为了支持复杂运动合成的训练后阶段,我们提出了 RealAction-5K,这是一个精心策划的高质量视频数据集,捕捉了人类日常活动中的丰富而精确的运动细节。广泛的实验表明,与最先进的模型和现有的偏好优化技术相比,RealDPO 在视频质量、文本对齐和运动真实感方面有了显著提高。
查看 arXiv 页面查看 PDF

评论

Ziqi HuangZiqi Huang
论文提交者

📄 论文 (arXiv):https://arxiv.org/abs/2510.14955
🌐 项目页面:https://vchitect.github.io/RealDPO-Project/
💻 代码:https://github.com/Vchitect/RealDPO
🎬 视频:https://www.youtube.com/watch?v=jvz5snFN0XA

TL;DR:RealDPO 是一种新的对齐方法,它使用真实世界的视频作为直接偏好优化 (DPO) 中的获胜样本,以显著提高视频生成模型所生成动作的真实感。