⏶16
直接将完整的扩散轨迹与细粒度人类偏好对齐
发表
由
Tiezhen WANG 提交
作者: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang
摘要
AI 生成总结
Direct-Align 和语义相对偏好优化通过降低计算成本和最小化离线奖励适应,改善了扩散模型与人类偏好的对齐。近期研究表明,使用可微分奖励直接将扩散模型与人类偏好对齐是有效的。然而,它们存在两个主要挑战:(1) 它们依赖于多步去噪和梯度计算来进行奖励评分,计算成本高昂,因此优化仅限于少数几个扩散步;(2) 它们通常需要对奖励模型进行持续的离线适应,才能达到所需的美学质量,如照片般逼真或精确的光照效果。为了解决多步去噪的局限性,我们提出了 Direct-Align 方法,该方法预先定义了一个噪声先验,可以通过插值有效地从任何时间步恢复原始图像,利用扩散状态是噪声和目标图像之间插值的方程,从而有效避免在后期时间步过度优化。此外,我们引入了语义相对偏好优化 (SRPO),其中奖励被表述为文本条件信号。这种方法能够根据正负提示增强在线调整奖励,从而减少对离线奖励微调的依赖。通过对 FLUX.1.dev 模型进行优化去噪和在线奖励调整的微调,我们将人类评估的真实感和美学质量提高了 3 倍以上。
有趣的论文