像经济学家一样推理:对经济问题进行后训练可诱导大型语言模型 (LLMs) 产生战略性泛化

发表
YUFA ZHOUYUFA ZHOU 提交
作者: YUFA ZHOUYufa Zhou, WangShaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang

摘要

直接训练用于多智能体系统 (MAS) 的大型语言模型 (LLM) 仍然具有挑战性,原因在于复杂的奖励建模、动态的智能体交互以及严苛的泛化要求。本文探讨了后训练技术,特别是监督微调 (SFT) 和可验证奖励强化学习 (RLVR),是否能有效泛化到多智能体场景。我们以经济推理为试验平台,利用其在数学和博弈论方面的坚实基础、对结构化分析推理的需求以及与市场设计、资源分配和政策分析等现实世界应用的关联性。我们介绍了 Recon (Reasoning like an ECONomist),一个7B参数的开源LLM,它经过了在2,100个高质量经济推理问题的手工精选数据集上的后训练。对经济推理基准和多智能体游戏的综合评估表明,在结构化推理和经济理性方面取得了明显改进。这些结果强调了领域对齐的后训练在增强推理和智能体对齐方面的潜力,阐明了SFT和RL在塑造模型行为中的作用。代码可在 https://github.com/MasterZhou1/Recon 获取。
查看 arXiv 页面查看 PDF

评论

YUFA ZHOUYUFA ZHOU
论文作者
论文提交者

我们研究了训练后技术能否有效泛化到多智能体场景,并以经济推理和博弈论评估作为试验平台。我们引入了Recon,一个7B的LLM,通过SFT和GRPO在2,100个精选问题上进行后训练,该模型无需明确的游戏数据即可诱导策略性行为。