THOR:通过 RL 对工具集成进行分层优化以实现数学推理

发表
taesiritaesiri 提交
作者: ChangQikai Chang, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Jun Du, Quan Liu, Jianqing Gao

摘要

AI 生成总结
THOR 是一个使用强化学习 (RL) 的工具集成层次优化框架,它通过构建高质量数据集、优化推理路径和在推理过程中纠正错误来增强数学推理和代码生成能力。
大型语言模型 (LLM) 在数学推理方面取得了显著进展,但在数值计算和形式符号处理等高精度任务方面仍然存在困难。集成外部工具已成为弥合这一差距的有前景的方法。尽管取得了最新进展,但现有方法在三个关键挑战方面仍面临困难:构建工具集成推理数据、执行细粒度优化和增强推理。为了克服这些限制,我们提出了 THOR(通过 RL 进行工具集成分层优化)。首先,我们引入了 TIRGen,这是一个基于多智能体 actor-critic 的管道,用于构建高质量的工具集成推理路径数据集,使其与策略保持一致,并在各种模型中得到良好的泛化。其次,为了执行细粒度的分层优化,我们引入了一种 RL 策略,该策略同时针对轨迹级别的解题和步级别代码生成进行优化。这源于我们的一项关键见解:中间工具调用的成功是最终答案正确性的有力预测指标。最后,THOR 包含一个自校正机制,该机制利用即时工具反馈在推理过程中动态修改错误的推理路径。我们的方法在各种模型中展现出强大的泛化能力,在推理模型和非推理模型中都表现出色。它在多个数学基准测试中,对于相似规模的模型,其性能达到了最先进水平,同时在代码基准测试上也提供了稳定的改进。我们的代码将在 https://github.com/JingMog/THOR 公开提供。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

大型语言模型 (LLMs) 在数学推理方面取得了显著进展,但在数值计算和形式符号操作等高精度任务方面仍存在困难。集成外部工具已成为弥合这一差距的有前途的方法。尽管取得了最新进展,但现有方法在三个关键挑战方面存在困难:构建工具集成的推理数据、进行细粒度优化和增强推理。为了克服这些限制,我们提出了 THOR (Tool-Integrated Hierarchical Optimization via RL)。首先,我们引入了 TIRGen,这是一个基于多代理 Actor-Critic 的管道,用于构建高质量的工具集成的推理路径数据集,与策略保持一致,并能很好地泛化到各种模型。其次,为了进行细粒度分层优化,我们引入了一种 RL 策略,该策略同时优化轨迹级别的解决问题和步骤级别的代码生成。这是基于我们的关键见解:中间工具调用的成功是最终答案正确性的有力预测指标。最后,THOR 包含一个自纠正机制,该机制利用即时工具反馈在推理过程中动态地修改错误的推理路径。我们的方法在各种模型中表现出强大的泛化能力,在推理模型和非推理模型中都表现出色。它在多个数学基准上实现了与同等规模模型最先进的性能,同时在代码基准上也取得了持续的改进。