⏶6

用于复杂指令遵循的反向偏好优化

05月28日发表

05月28日由 xiang huang 提交

作者: Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li

摘要

指令遵循（IF）是大型语言模型（LLMs）的一项关键能力。然而，处理具有多重约束的复杂指令仍然具有挑战性。现有方法通常基于示例满足的约束数量来选择偏好对，这会引入噪声，因为选择的示例可能未能遵循某些约束，而被拒绝的示例在某些方面可能优于选择的示例。为了解决与多重偏好对齐的挑战，我们提出了一种简单而有效的方法，称为逆向偏好优化（RPO）。它通过动态反转指令中的约束来减轻偏好对中的噪声，从而确保选择的响应是完美的，减轻了为收集完美响应而进行大量采样和过滤的负担。此外，反转还扩大了选择响应和拒绝响应之间的差距，从而明确了优化方向，使其对噪声更鲁棒。我们在Sysbench和Multi-IF这两个多轮IF基准上评估了RPO，结果表明相对于DPO基线，RPO分别平均提高了4.6和2.5个点（在Llama-3.1 8B上）。此外，RPO在不同模型尺寸（8B至70B参数）上有效扩展，其中70B的RPO模型超越了GPT-4o。

查看 arXiv 页面查看 PDF

xiang huang

论文作者

论文提交者

指令遵循 (Instruction Following, IF) 是大型语言模型 (LLM) 的一项关键能力。然而，处理具有多个约束的复杂指令仍然具有挑战性。以往的方法通常根据满足的约束数量选择偏好对，这引入了噪声，因为选择的示例可能未能遵循某些约束，而被拒绝的示例在某些方面可能优于选择的示例。为了解决与多重偏好对齐的挑战，我们提出了一种简单而有效的方法，称为逆向偏好优化 (Reverse Preference Optimization, RPO)。它通过动态逆转指令中的约束来减轻偏好对中的噪声，以确保选定的响应是完美的，从而减轻了大量采样和过滤以收集完美响应的负担。此外，逆转还扩大了选择和拒绝响应之间的差距，从而明确了优化方向，并使其对噪声更加鲁棒。我们在两个多轮 IF 基准测试 (Sysbench 和 Multi-IF) 上评估了 RPO，结果表明，与 DPO 基线相比，分别平均提高了 4.6 和 2.5 分（在 Llama-3.1 8B 上）。此外，RPO 在不同模型尺寸（8B 到 70B 参数）上都表现出有效的扩展性，其中 70B 的 RPO 模型甚至超越了 GPT-4o。

用于复杂指令遵循的反向偏好优化

摘要

评论