⏶2
基于评分标准引导的合成数据进行可配置的偏好微调
发表
由
Victor Gallego 提交

作者:
Víctor Gallego

摘要
用于AI对齐的人类反馈模型,例如支持直接偏好优化(DPO)的模型,通常预设单一、静态的偏好集,这限制了其适应性。本文通过引入可配置偏好调优(CPT)来挑战这种单一偏好的假设,CPT是一种新颖的框架,旨在赋予语言模型根据明确的、人类可解释的指令动态调整其行为的能力。CPT利用合成生成的偏好数据,这些数据以源自结构化、细粒度评分标准的系统提示为条件,这些标准定义了诸如写作风格等所需属性。通过使用这些评分标准指导的偏好进行微调,大型语言模型(LLM)学习在推理时根据系统提示调整其输出,而无需重新训练。这种方法不仅提供了细粒度控制,还为建模更细致和上下文相关的人类反馈提供了一种机制。多个实验成果,如训练代码、生成的数据集和微调模型,已在 https://github.com/vicgalle/configurable-preference-tuning 发布。
@librarian-bot 推荐