Think on your Feet:用于社交智能体的基于强化学习的自适应思维

发表
mz.wmz.w 提交
作者: mz.wMinzheng Wang, Yongbin LiYongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, bingli wuBingli Wu, Fei Huang, Haiyang Yu, Wenji Mao

摘要

有效的社会智能模拟要求语言代理能够动态调整推理深度,这是当前方法中显著缺乏的一种能力。现有方法要么缺乏这种推理能力,要么在所有场景中强制采用统一的长链式思考推理,导致过度的 token 使用和不恰当的社会模拟。在本文中,我们提出了自适应模式学习 (AML),该方法根据实时上下文,策略性地从四种思维模式(直觉反应 -> 深度思考)中进行选择。我们框架的核心创新是自适应模式策略优化 (AMPO) 算法,它在现有方法的基础上引入了三个关键进展:(1) 多粒度思维模式设计,(2) 跨社交互动的上下文感知模式切换,以及 (3) 通过深度自适应处理实现 token 高效推理。在社会智能任务上的大量实验证实,AML 的任务性能比最先进的方法高 15.6%。值得注意的是,我们的方法链式思考长度缩短了 32.8%,性能仍比 GRPO 高 7.0%。这些结果表明,AMPO 中实现的上下文敏感思维模式选择,比 GRPO 的固定深度方法更能实现类人的自适应推理。
查看 arXiv 页面查看 PDF

评论

mz.wmz.w
论文作者
论文提交者

我们已发布代码和数据,可在以下链接获取:https://github.com/MozerWang/AMPO