以工具取代思考,使小型语言模型能够进行推理

发表
Corrado RainoneCorrado Rainone 提交
作者: Corrado RainoneCorrado Rainone, Tim Bakker, Roland Memisevic

摘要

近期的研究进展建立了一种新的机器学习范式,该范式基于在推理时和训练时扩展计算资源。在该研究方向中,研究人员结合使用了基于合成示例的监督式微调(SFT)和基于可验证奖励的强化学习(RLVR)来训练大型语言模型,使其在推理过程中以自然语言形式表达的“思考”来消耗额外的计算资源。在本文中,我们提出将这些“思考”的词元(token)格式化为与一个有状态工具的多轮交互轨迹。在每一轮交互中,工具的新状态都会被附加到模型的上下文中,而模型的任务是生成必要的词元,通过一种自定义的领域特定语言(DSL)来控制该工具。我们在修复有问题的 Python 代码这一任务上对该方法进行了基准测试,结果表明,这种受约束的设置能够更快地采样经验并提供更密集的奖励信号,从而使得参数量小至 30 亿的模型也能学会如何在该任务上熟练地运用额外的计算资源。
查看 arXiv 页面查看 PDF

评论

Corrado RainoneCorrado Rainone
论文作者
论文提交者

借助工具,小模型能比没有工具时更好地学习如何“思考”。

Daniel DarabosDaniel Darabos

很酷的研究,谢谢!有点令人失望的是,这些结果未能推广到更大的模型。我预计在大型语言模型 (LLM) 中,推理和语言是紧密相连的。也许很难将任何智能“迁移”到基本上是全新的标记上。我想知道,如果将编辑 DSL 设计成更类似于自然语言,是否会有所不同。例如,与其使用“DELL 3”,不如使用“让我们看看如果我们删除第 3 行会发生什么。”对于通用 DSL 来说,这似乎是多余的,但它可能有助于更好地与 LLM 的推理能力联系起来。