Reg-DPO:使用GT-Pair进行SFT正则化直接偏好优化以改进视频生成

发表
dujiedujie 提交
作者: dujieJie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang

摘要

AI 生成总结
一种结合了 GT-Pair 和 Reg-DPO 的新方法,通过解决数据构建、训练稳定性和内存消耗等挑战,提升了视频生成的质量。
最近的研究已将直接偏好优化(Direct Preference Optimization, DPO)确定为一种无需奖励模型且能有效提升视频生成质量的方法。然而,现有方法很大程度上沿用了图像领域的范式,并且主要在小规模模型(约 20 亿参数)上开发,这限制了它们应对视频任务独有挑战的能力,例如数据构建成本高昂、训练不稳定以及内存消耗大。为了克服这些局限,我们引入了 GT-Pair,它通过使用真实视频作为正例、模型生成的视频作为负例来自动构建高质量的偏好对,从而无需任何外部标注。我们进一步提出了 Reg-DPO,它将 SFT 损失作为正则化项融入 DPO 目标函数,以增强训练稳定性和生成保真度。此外,通过将 FSDP 框架与多种内存优化技术相结合,我们的方法实现了比单独使用 FSDP 高出近三倍的训练容量。在多个数据集上进行的图像到视频(I2V)和文本到视频(T2V)任务的大量实验表明,我们的方法持续优于现有方法,提供了卓越的视频生成质量。
查看 arXiv 页面查看 PDF

评论

dujiedujie
论文作者
论文提交者

一个统一且内存优化的视频生成微调框架,支持 I2V/T2V 任务、SFT/DPO 模式、LoRA 和全参数微调,以及多分辨率训练。

Reg-DPO_framework