⏶15
大型语言模型是贪婪的智能体:强化学习微调对决策能力的影响
发表
由
Thomas Schmied 提交
作者:
Thomas Schmied,
Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier,
Razvan Pascanu
摘要
大型语言模型(LLM)的成功引发了人们对各种智能体应用的兴趣。一个关键假设是,LLM利用常识和思维链(CoT)推理,能够有效地探索并高效地解决复杂领域。然而,LLM智能体被发现存在次优探索和知行差距的问题,即无法有效地利用模型中存在的知识进行行动。在这项工作中,我们系统地研究了为什么LLM在决策场景中表现次优。特别是,我们仔细考察了三种普遍存在的失败模式:贪婪性、频率偏差和知行差距。我们提出了一种通过强化学习(RL)对自身生成的CoT推理过程进行微调来缓解这些不足的方法。我们的实验涵盖了多臂老虎机问题、上下文老虎机问题和井字棋,表明RL微调能够通过增加探索并缩小知行差距来增强LLM的决策能力。最后,我们考察了经典探索机制(例如 epsilon-greedy)以及针对LLM的方法(例如自我修正和自我一致性),以期在决策任务上更有效地对LLM进行微调。
本文研究了为什么LLMs在决策场景中表现不佳,并提出通过基于自生成的CoT推理的强化学习微调来弥补其缺点。