⏶7

以工具取代思考，使小型语言模型能够进行推理

07月07日发表

07月17日由 Corrado Rainone 提交

作者: Corrado Rainone, Tim Bakker, Roland Memisevic

摘要

近期的研究进展建立了一种新的机器学习范式，该范式基于在推理时和训练时扩展计算资源。在该研究方向中，研究人员结合使用了基于合成示例的监督式微调（SFT）和基于可验证奖励的强化学习（RLVR）来训练大型语言模型，使其在推理过程中以自然语言形式表达的“思考”来消耗额外的计算资源。在本文中，我们提出将这些“思考”的词元（token）格式化为与一个有状态工具的多轮交互轨迹。在每一轮交互中，工具的新状态都会被附加到模型的上下文中，而模型的任务是生成必要的词元，通过一种自定义的领域特定语言（DSL）来控制该工具。我们在修复有问题的 Python 代码这一任务上对该方法进行了基准测试，结果表明，这种受约束的设置能够更快地采样经验并提供更密集的奖励信号，从而使得参数量小至 30 亿的模型也能学会如何在该任务上熟练地运用额外的计算资源。

查看 arXiv 页面查看 PDF

Corrado Rainone

论文作者

论文提交者

借助工具，小模型能比没有工具时更好地学习如何“思考”。

Daniel Darabos

很酷的研究，谢谢！有点令人失望的是，这些结果未能推广到更大的模型。我预计在大型语言模型 (LLM) 中，推理和语言是紧密相连的。也许很难将任何智能“迁移”到基本上是全新的标记上。我想知道，如果将编辑 DSL 设计成更类似于自然语言，是否会有所不同。例如，与其使用“DELL 3”，不如使用“让我们看看如果我们删除第 3 行会发生什么。”对于通用 DSL 来说，这似乎是多余的，但它可能有助于更好地与 LLM 的推理能力联系起来。

以工具取代思考，使小型语言模型能够进行推理

摘要

评论