⏶31
RLVER: 具有可验证情感奖励的强化学习,用于共情智能体
发表
由
Jiaqi Chen 提交
作者:
Peisong Wang,
Ruotian Ma, Bang Zhang, Xingyu Chen, Zhiwei He, Kang Luo, Qingsong Lv, Qingxuan Jiang, Zheng Xie, Shanyi Wang, Yuan Li, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
摘要
大型语言模型(LLM)擅长逻辑和算法推理,但它们的情商(EQ)仍远落后于其认知能力。虽然可验证奖励强化学习(RLVR)在其他领域已取得进展,但其在对话领域——特别是情感智能方面的应用仍未得到充分探索。在这项工作中,我们引入了RLVER,这是首个端到端强化学习框架,它利用模拟用户提供的可验证情感奖励,以培养LLM更高阶的同理心能力。在该框架内,自洽的情感模拟用户参与对话过程,并在对话中生成确定性情感分数,作为奖励信号来指导LLM的学习。使用PPO对公开的Qwen2.5-7B-Instruct模型进行微调,使其Sentient-Benchmark得分从13.3提高到79.2,同时在很大程度上保留了数学和编码能力。大量实验表明:(i)RLVER持续提升了多种对话能力;(ii)思考型模型和非思考型模型表现出不同的趋势——思考型模型在同理心和洞察力方面表现出色,而非思考型模型则倾向于行动;(iii)GRPO通常能带来稳定的提升,而PPO可以将某些能力推向更高的上限;(iv)更具挑战性的环境并非总是更好——适度的环境能产生更强的结果。我们的结果表明,RLVER是通向情感智能和广泛能力语言智能体的实用途径。
本文介绍了首个RLVR框架,旨在通过模拟用户将情感反应转化为奖励信号,以提升LLM的同理心,并开源了代码、检查点和脚本,以加速对情感智能AI的研究。