⏶52
跨界推理:通过测试时权衡提高规范对齐
发表
由
Yafu Li 提交
作者:
Haoran Zhang,
Yafu Li,
Xuyang Hu,
Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng

摘要
AI 生成总结
Align3 是一种使用测试时审议的轻量级方法,以最小的开销增强了大型语言模型在不同场景中的规范对齐。大型语言模型(LLM)越来越多地应用于各种现实世界的场景,每个场景都遵循用户或组织定制的特定行为和安全规范(spec)。这些规范分为安全规范和行为规范,因场景而异,并随着偏好和要求的变化而演变。我们将这一挑战形式化为规范对齐,重点关注 LLM 遵循动态、场景特定规范(从行为和安全角度)的能力。为了应对这一挑战,我们提出了 Align3,这是一种轻量级方法,它采用测试时审议(TTD)和分层反思与修订来推理规范边界。我们进一步提出了 SpecBench,一个用于衡量规范对齐的统一基准,涵盖 5 个场景、103 个规范和 1,500 个提示。对 15 个推理模型和 18 个指令模型使用多种 TTD 方法(包括 Self-Refine、TPO 和 MoreThink)的实验得出了三个关键发现:(i)测试时审议增强了规范对齐;(ii)Align3 在最小开销的情况下推动了安全-有用性权衡的前沿;(iii)SpecBench 有效地揭示了对齐差距。这些结果凸显了测试时审议作为推理现实世界规范边界的有效策略的潜力。
大型语言模型(LLM)越来越多地应用于各种真实场景,每个场景都由用户或组织定制的特定行为和安全规范(spec)来管理。这些规范分为安全规范和行为规范,因场景而异,并随着偏好和需求的改变而演变。我们将这一挑战形式化为规范对齐,重点关注 LLM 遵循动态的、场景特定的行为和安全规范的能力。为了应对这一挑战,我们提出了 Align3,一种轻量级方法,它采用测试时审慎(TTD)结合分层反思和修订来推理规范边界。我们进一步提出了 SpecBench,一个用于衡量规范对齐的统一基准,涵盖 5 个场景、103 个规范和 1500 个提示。在 15 个推理模型和 18 个指令模型上进行的实验,包括 Self-Refine、TPO 和 MoreThink 等几种 TTD 方法,得出了三个关键发现:(i)测试时审慎增强了规范对齐;(ii)Align3 以最小的开销推动了安全-有用性权衡的前沿;(iii)SpecBench 有效地揭示了对齐差距。这些结果凸显了测试时审慎作为一种有效的策略,用于推理真实世界规范边界的潜力。