Ψ-采样器:分数模型中基于SMC的推理时奖励对齐的初始粒子采样

发表
Yunhong MinYunhong Min 提交
作者: TaeHoon YoonTaehoon Yoon, Yunhong MinYunhong Min, Kyeongmin YeoKyeongmin Yeo, Minhyuk SungMinhyuk Sung

摘要

我们引入了Psi-采样器,这是一个基于SMC的框架,它结合了基于pCNL的初始粒子采样,以实现与基于分数的生成模型在推理时的有效奖励对齐。基于分数的生成模型在推理时期的奖励对齐最近获得了显著关注,这与从预训练到后训练优化的更广泛范式转变相一致。这一趋势的核心是将序贯蒙特卡洛(SMC)应用于去噪过程。然而,现有方法通常从高斯先验中初始化粒子,这未能充分捕捉奖励相关区域,并导致采样效率降低。我们证明,从奖励感知的后验分布中初始化能显著提高对齐性能。为了在高维潜在空间中实现后验采样,我们引入了预处理Crank-Nicolson Langevin(pCNL)算法,该算法将维度鲁棒的提议与梯度引导的动力学相结合。这种方法实现了高效且可扩展的后验采样,并在各种奖励对齐任务中持续提高性能,包括布局到图像生成、数量感知生成和美学偏好生成,如我们的实验所示。
查看 arXiv 页面查看 PDF

评论

Yunhong MinYunhong Min
论文作者
论文提交者

项目页面: https://psi-sampler.github.io/

Github 页面: https://github.com/KAIST-Visual-AI-Group/Psi-Sampler