⏶11
TimeHC-RL:用于增强大型语言模型社交智能的时序感知分层认知强化学习
发表
由
Hou 提交

作者:
Guiyang Hou, Xing Gao,
Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng,
Yongliang Shen,
Jialu Du, Fei Huang,
Yongbin Li, Weiming Lu


摘要
最近,大型语言模型(LLM)在需要缜密思考的智商相关领域(如数学和编码)取得了显著进展。然而,从训练后角度提升 LLM 在社会领域的认知发展仍未得到充分探索。我们认识到,与主要依赖系统 2 认知(细致、循序渐进的推理)的数学不同,社会世界遵循独特的时序,并需要更丰富的认知模式混合(从直觉反应(系统 1)和表层思考到深思熟虑(系统 2))。因此,我们引入了时序感知分层认知强化学习(TimeHC-RL),以增强 LLM 的社会智能。在我们的实验中,我们通过五种其他训练后范式和两种测试时干预范式,在八个具有不同数据模式的数据集上系统地探索了提升 LLM 社会智能的方法,并验证了 TimeHC-RL 方法的有效性。实验结果表明,与广泛采用的系统 2 强化学习方法相比,我们提出的 TimeHC-RL 方法具有优越性。它使得 7B 主干模型如虎添翼,使其性能能够与 DeepSeek-R1 和 OpenAI-O3 等先进模型相媲美。此外,从训练后和测试时干预角度系统探索提升 LLM 社会智能的方法,也揭示了多项宝贵的见解。
系统性地从训练后角度探索提升大型语言模型的社会智能。