DuPO:通过双偏好优化实现可靠的大语言模型自我验证

发表
taesiritaesiri 提交
作者: Shuaijie SheShuaijie She, Yu BaoYu Bao, Yu LuYu Lu, Lu Xu, Tao Li, Wenhao ZhuWenhao Zhu, Shujian HuangShujian Huang, ChengShanbo Cheng, Lu Lu, Yuxuan Wang

摘要

我们提出了 DuPO,这是一个基于偶蹄学习的偏好优化框架,通过广义偶蹄生成无标注反馈。DuPO 解决了两个主要局限性:基于可验证奖励的强化学习 (RLVR) 依赖于昂贵的标签且适用性仅限于可验证任务,以及传统的偶蹄学习限制于严格的偶蹄任务对(例如,翻译和回译)。具体来说,DuPO 将原始任务的输入分解为已知和未知部分,然后构建其偶蹄任务,利用原始输出和已知信息来重构未知部分(例如,反转数学解以恢复隐藏变量),从而将适用性扩展到不可逆任务。这种重构的质量作为一种自监督奖励来优化原始任务,与 LLM 通过单个模型实例化两个任务的能力协同作用。在实践中,DuPO 在各种任务上实现了显著的收益:它在 756 个方向上将平均翻译质量提高了 2.13 COMET,在三个挑战性基准上平均提高了 6.4 个点的数学推理准确性,并在推理时作为重排器将性能提高了 9.3 个点(通过计算换取准确性)。这些结果使 DuPO 成为 LLM 优化的可扩展、通用且无标注的范式。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 我们提出了DuPO,一个基于对偶学习的偏好优化框架,通过广义对偶实现无标注反馈生成。DuPO解决了两个关键限制:带可验证奖励的强化学习(RLVR)依赖于昂贵的标签且适用性仅限于可验证任务,以及传统对偶学习严格限制于对偶任务对(例如,翻译和回译)。具体来说,DuPO将原始任务的输入分解为已知和未知部分,然后构建其对偶任务,利用原始输出和已知信息来重建未知部分(例如,反向数学解以恢复隐藏变量),从而将适用性扩展到不可逆任务。这种重建的质量充当了自监督奖励,用于优化原始任务,并与LLM通过单个模型实例化两个任务的能力协同作用。在实践中,DuPO在多样化任务中取得了显著的提升:它将756个方向的平均翻译质量提高了2.13 COMET,在三个挑战性基准上将数学推理准确性平均提高了6.4个百分点,并作为推理时重排序器(trade-off computation for accuracy)将性能提高了9.3个百分点。这些结果表明DuPO是一种可扩展、通用且无标注的LLM优化范式。