⏶6
用于复杂指令遵循的反向偏好优化
发表
由
xiang huang 提交
作者:
Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li
摘要
指令遵循(IF)是大型语言模型(LLMs)的一项关键能力。然而,处理具有多重约束的复杂指令仍然具有挑战性。现有方法通常基于示例满足的约束数量来选择偏好对,这会引入噪声,因为选择的示例可能未能遵循某些约束,而被拒绝的示例在某些方面可能优于选择的示例。为了解决与多重偏好对齐的挑战,我们提出了一种简单而有效的方法,称为逆向偏好优化(RPO)。它通过动态反转指令中的约束来减轻偏好对中的噪声,从而确保选择的响应是完美的,减轻了为收集完美响应而进行大量采样和过滤的负担。此外,反转还扩大了选择响应和拒绝响应之间的差距,从而明确了优化方向,使其对噪声更鲁棒。我们在Sysbench和Multi-IF这两个多轮IF基准上评估了RPO,结果表明相对于DPO基线,RPO分别平均提高了4.6和2.5个点(在Llama-3.1 8B上)。此外,RPO在不同模型尺寸(8B至70B参数)上有效扩展,其中70B的RPO模型超越了GPT-4o。
指令遵循 (Instruction Following, IF) 是大型语言模型 (LLM) 的一项关键能力。然而,处理具有多个约束的复杂指令仍然具有挑战性。以往的方法通常根据满足的约束数量选择偏好对,这引入了噪声,因为选择的示例可能未能遵循某些约束,而被拒绝的示例在某些方面可能优于选择的示例。为了解决与多重偏好对齐的挑战,我们提出了一种简单而有效的方法,称为逆向偏好优化 (Reverse Preference Optimization, RPO)。它通过动态逆转指令中的约束来减轻偏好对中的噪声,以确保选定的响应是完美的,从而减轻了大量采样和过滤以收集完美响应的负担。此外,逆转还扩大了选择和拒绝响应之间的差距,从而明确了优化方向,并使其对噪声更加鲁棒。我们在两个多轮 IF 基准测试 (Sysbench 和 Multi-IF) 上评估了 RPO,结果表明,与 DPO 基线相比,分别平均提高了 4.6 和 2.5 分(在 Llama-3.1 8B 上)。此外,RPO 在不同模型尺寸(8B 到 70B 参数)上都表现出有效的扩展性,其中 70B 的 RPO 模型甚至超越了 GPT-4o。