⏶15
MiCRo:用于个性化偏好学习的混合建模与上下文感知路由
发表
由
Rui Yang 提交
作者: Jingyan Shen,
Jiarui Yao,
Rui Yang, Yifan Sun, Feng Luo, Rui Pan, Tong Zhang, Han Zhao
摘要
奖励建模是构建安全基础模型中的关键一步,特别是在应用人类反馈强化学习 (RLHF) 来对齐大型语言模型 (LLM) 时。然而,基于布拉德利-特里 (Bradley-Terry, BT) 模型的奖励建模假设了一个全局奖励函数,未能捕捉人类固有的多样性和异构偏好。因此,这种过度简化限制了 LLM 支持个性化和多元对齐的能力。从理论上讲,我们证明,当人类偏好遵循不同子群的混合分布时,单一的 BT 模型会产生不可约误差。尽管现有解决方案,如带细粒度标注的多目标学习,有助于解决此问题,但它们成本高昂且受限于预定义属性,无法完全捕捉人类价值观的丰富性。在这项工作中,我们引入了 MiCRo,一个两阶段框架,它通过利用大规模二元偏好数据集来增强个性化偏好学习,而无需显式的细粒度标注。在第一阶段,MiCRo 引入了上下文感知混合建模方法,以捕捉多样化的人类偏好。在第二阶段,MiCRo 整合了一种在线路由策略,该策略根据特定上下文动态调整混合权重以解决歧义,从而实现高效且可扩展的偏好适应,且只需最少的额外监督。在多个偏好数据集上的实验表明,MiCRo 有效地捕捉了多样化的人类偏好,并显著改善了下游个性化。
评论
论文作者
论文提交者