⏶7
ChARM:针对高级角色扮演语言智能体的基于角色的行为自适应奖励建模
发表
由
feitengfang 提交
作者: Feiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li
摘要
角色扮演语言智能体(RPLAs)旨在模拟角色,以实现逼真且引人入胜的人机交互。然而,传统的奖励模型在可扩展性方面常常遇到困难,并且难以适应主观的对话偏好。我们提出了 ChARM,一个基于角色的行为自适应奖励模型,通过两项创新来解决这些挑战:(1) 一个行为自适应裕度,显著提升了学习效率和泛化能力;(2) 一个自演化机制,利用大规模未标记数据来提高训练覆盖范围。此外,我们引入了 RoleplayPref,第一个专门针对 RPLAs 的大规模偏好数据集,该数据集包含 1,108 个角色、13 个子类别和 16,888 个双语对话;以及一个专门的评估基准 RoleplayEval。实验结果显示,相较于传统的 Bradley-Terry 模型,在偏好排名方面提高了 13%。此外,将 ChARM 生成的奖励应用于偏好学习技术(例如,直接偏好优化),在 CharacterEval 和 RoleplayEval 上取得了最先进的结果。代码和数据集可在此处获取:https://github.com/calubkk/ChARM。
我们提出了ChARM,一种新颖的奖励建模框架,旨在为RPLA中的角色扮演能力提升提供精确奖励,通过行为自适应边际动态调整优化强度,并利用自我演化来扩展训练数据。
我们在Qwen2.5-7B上训练了一个基于ChARM的奖励模型,其在偏好排序方面比传统的Bradley-Terry模型表现高出13%。当与DPO结合时,它在CharacterEval和我们新开发的角色扮演基准RoleplayEval上都达到了最先进的性能。
我们创建了首个角色扮演偏好数据集RoleplayPref,包含13个子类别中的1,108个角色和16,888个双语对话。此外,我们设计了一个新的评估基准RoleplayEval,以推动该领域的研究。