⏶16
通过自动化构建环境在大型语言模型中实现反馈驱动的工具使用改进
发表
由
Junjie Ye 提交
作者:
Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen
摘要
有效的工具使用对于大型语言模型(LLM)与环境进行有意义的交互至关重要。然而,由于构建稳定的训练环境和设计可验证的奖励机制方面的挑战,专门为工具使用设计的有效强化学习(RL)框架的缺乏限制了进展。为了解决这个问题,我们提出了一种自动化环境构建流程,包括场景分解、文档生成、功能集成、复杂性扩展和本地化部署。这使得能够创建高质量的训练环境,提供详细且可衡量的反馈,而无需依赖外部工具。此外,我们引入了一种可验证的奖励机制,该机制评估工具使用的精确性和任务执行的完整性。当与从构建的环境中收集的轨迹数据相结合时,该机制与标准 RL 算法无缝集成,以促进反馈驱动的模型训练。对不同规模 LLM 的实验表明,我们的方法显著增强了模型的工具使用性能,而不会降低其通用能力,无论推理模式或训练算法如何。我们的分析表明,这些增益源于模型中较低层 MLP 参数的更新所驱动的上下文理解和推理的改进。
https://github.com/bytedance/FTRL