⏶36
解读轨迹辅助的LLM推理:一个优化视角
发表
由
Songyang Zhang 提交
作者:
Junnan Liu, Hongwei Liu, Linchen Xiao,
Shudong Liu,
Taolin Zhang,
Zihan Ma,
Songyang Zhang, Kai Chen



摘要
我们提出了一种新颖的框架,通过元学习的视角来理解大型语言模型(LLM)的推理能力。通过将推理轨迹概念化为对LLM参数的伪梯度下降更新,我们发现了LLM推理与各种元学习范式之间的相似之处。我们将推理任务的训练过程形式化为一个元学习设置,其中每个问题被视为一个单独的任务,而推理轨迹作为调整模型参数的内循环优化。在训练了多样化的问题集后,LLM能够发展出可泛化到以前未见问题的基本推理能力。广泛的实证评估证实了LLM推理与元学习之间的紧密联系,从元学习的角度探讨了一些重要的议题。我们的工作不仅增进了对LLM推理的理解,还通过已有的元学习技术为改进这些模型提供了实践见解。
RAML