⏶80

DuPO：通过双偏好优化实现可靠的大语言模型自我验证

08月20日发表

08月21日由 taesiri 提交

作者: Shuaijie She, Yu Bao Yu Bao, Yu Lu Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Cheng Shanbo Cheng, Lu Lu, Yuxuan Wang

摘要

我们提出了 DuPO，这是一个基于偶蹄学习的偏好优化框架，通过广义偶蹄生成无标注反馈。DuPO 解决了两个主要局限性：基于可验证奖励的强化学习 (RLVR) 依赖于昂贵的标签且适用性仅限于可验证任务，以及传统的偶蹄学习限制于严格的偶蹄任务对（例如，翻译和回译）。具体来说，DuPO 将原始任务的输入分解为已知和未知部分，然后构建其偶蹄任务，利用原始输出和已知信息来重构未知部分（例如，反转数学解以恢复隐藏变量），从而将适用性扩展到不可逆任务。这种重构的质量作为一种自监督奖励来优化原始任务，与 LLM 通过单个模型实例化两个任务的能力协同作用。在实践中，DuPO 在各种任务上实现了显著的收益：它在 756 个方向上将平均翻译质量提高了 2.13 COMET，在三个挑战性基准上平均提高了 6.4 个点的数学推理准确性，并在推理时作为重排器将性能提高了 9.3 个点（通过计算换取准确性）。这些结果使 DuPO 成为 LLM 优化的可扩展、通用且无标注的范式。

查看 arXiv 页面查看 PDF

taesiri

论文提交者

> 我们提出了DuPO，一个基于对偶学习的偏好优化框架，通过广义对偶实现无标注反馈生成。DuPO解决了两个关键限制：带可验证奖励的强化学习（RLVR）依赖于昂贵的标签且适用性仅限于可验证任务，以及传统对偶学习严格限制于对偶任务对（例如，翻译和回译）。具体来说，DuPO将原始任务的输入分解为已知和未知部分，然后构建其对偶任务，利用原始输出和已知信息来重建未知部分（例如，反向数学解以恢复隐藏变量），从而将适用性扩展到不可逆任务。这种重建的质量充当了自监督奖励，用于优化原始任务，并与LLM通过单个模型实例化两个任务的能力协同作用。在实践中，DuPO在多样化任务中取得了显著的提升：它将756个方向的平均翻译质量提高了2.13 COMET，在三个挑战性基准上将数学推理准确性平均提高了6.4个百分点，并作为推理时重排序器（trade-off computation for accuracy）将性能提高了9.3个百分点。这些结果表明DuPO是一种可扩展、通用且无标注的LLM优化范式。

DuPO：通过双偏好优化实现可靠的大语言模型自我验证

摘要

评论