解读轨迹辅助的LLM推理:一个优化视角

发表
Songyang ZhangSongyang Zhang 提交
作者: Junnan LiuJunnan Liu, Hongwei Liu, Linchen Xiao, Shudong LiuShudong Liu, Taolin ZhangTaolin Zhang, Zihan MaZihan Ma, Songyang ZhangSongyang Zhang, Kai Chen

摘要

我们提出了一种新颖的框架,通过元学习的视角来理解大型语言模型(LLM)的推理能力。通过将推理轨迹概念化为对LLM参数的伪梯度下降更新,我们发现了LLM推理与各种元学习范式之间的相似之处。我们将推理任务的训练过程形式化为一个元学习设置,其中每个问题被视为一个单独的任务,而推理轨迹作为调整模型参数的内循环优化。在训练了多样化的问题集后,LLM能够发展出可泛化到以前未见问题的基本推理能力。广泛的实证评估证实了LLM推理与元学习之间的紧密联系,从元学习的角度探讨了一些重要的议题。我们的工作不仅增进了对LLM推理的理解,还通过已有的元学习技术为改进这些模型提供了实践见解。
查看 arXiv 页面查看 PDF

评论

Songyang ZhangSongyang Zhang
论文作者
论文提交者

RAML

Junnan LiuJunnan Liu
论文作者

我们将大型语言模型 (LLM) 的推理视为一种元学习形式,将每个问题的思维链视为微调模型参数的内层循环更新。在许多此类“任务”上训练模型,赋予其可泛化的推理技能,并且实证结果补充了 LLM 推理动力学与经典元学习方法之间的紧密联系。

github: https://github.com/open-compass/RaML