Sotopia-RL: 社会智能的奖励设计

发表
Haofei YuHaofei Yu 提交
作者: Haofei Yu, Zhengyang Qi, Yining Zhao, Kolby Nottingham, Keyang Xuan, Bodhisattwa Prasad Majumder, Hao ZhuHao Zhu, Paul Pu Liang, Jiaxuan You

摘要

社会智能已成为大型语言模型(LLM)的一项关键能力,使其能够有效地参与现实世界的社会任务,如适应、说服、协作和谈判。强化学习(RL)是训练具有社会智能的智能体的自然选择,因为它允许模型通过社会互动直接学习复杂的策略。然而,社会互动具有两个关键特征,为 RL 训练设置了障碍:(1)部分可观察性,其中话语具有间接和延迟的影响,使归因复杂化;(2)多维性,其中建立融洽关系或寻求知识等行为间接有助于实现目标。这些特征使得基于马尔可夫决策过程(MDP)的单维情景级奖励的 RL 效率低下且不稳定。为了解决这些挑战,我们提出了 Sotopia-RL,这是一个新颖的框架,将粗略的情景级反馈细化为话语级、多维奖励。话语级归因通过将结果归因于个体话语来减轻部分可观察性,而多维奖励则捕捉社会互动的丰富性并减少奖励欺骗。在 Sotopia(一个开放式社会学习环境)中的实验表明,Sotopia-RL 实现了最先进的社会目标完成分数(Sotopia-hard 上为 7.17,Sotopia-full 上为 8.31),显著优于现有方法。消融研究证实了 RL 训练中话语级归因和多维奖励设计的必要性。我们的实现已公开发布于:https://github.com/sotopia-lab/sotopia-rl
查看 arXiv 页面查看 PDF

评论

Haofei YuHaofei Yu
论文提交者

我们提出了一个易于使用且直接的RL训练框架,用于具有言语级别和多维度奖励标签的社交智能任务,名为Sotopia-RL。它在Sotopia基准测试中达到了最先进的性能。

代码:https://github.com/sotopia-lab/sotopia-rl

策略模型:https://huggingface.co/ulab-ai/sotopia-rl-qwen-2.5-7B-grpo

奖励模型:https://huggingface.co/ulab-ai/sotopia-rl-qwen2.5-7B-rm

数据集:https://huggingface.co/datasets/ulab-ai/sotopia-rl-reward-annotation