⏶7
以工具取代思考,使小型语言模型能够进行推理
发表
由
Corrado Rainone 提交
作者:
Corrado Rainone, Tim Bakker, Roland Memisevic
摘要
近期的研究进展建立了一种新的机器学习范式,该范式基于在推理时和训练时扩展计算资源。在该研究方向中,研究人员结合使用了基于合成示例的监督式微调(SFT)和基于可验证奖励的强化学习(RLVR)来训练大型语言模型,使其在推理过程中以自然语言形式表达的“思考”来消耗额外的计算资源。在本文中,我们提出将这些“思考”的词元(token)格式化为与一个有状态工具的多轮交互轨迹。在每一轮交互中,工具的新状态都会被附加到模型的上下文中,而模型的任务是生成必要的词元,通过一种自定义的领域特定语言(DSL)来控制该工具。我们在修复有问题的 Python 代码这一任务上对该方法进行了基准测试,结果表明,这种受约束的设置能够更快地采样经验并提供更密集的奖励信号,从而使得参数量小至 30 亿的模型也能学会如何在该任务上熟练地运用额外的计算资源。
借助工具,小模型能比没有工具时更好地学习如何“思考”。