大型语言模型工具内学习的可证明优势

发表
taesiritaesiri 提交
作者: Sam Houliston, Ambroise Odonnat, Charles Arnal, Vivien Cabannes

摘要

配备检索、记忆或外部API的工具增强型语言模型正在重塑AI,但其理论优势仍未被充分探索。在本文中,我们通过证明与内部学习(记忆)相比,内部学习(外部检索)在事实回忆方面的优势来解决这个问题。我们表明,模型仅凭其权重可以记忆的事实数量与其参数数量基本受限。相比之下,我们证明了工具使用通过简单高效的电路构造实现了无限的事实回忆。这些结果在受控实验中得到了验证,其中使用工具的模型表现始终优于记忆模型。我们进一步表明,对于预训练的大型语言模型,教授工具使用和通用规则比将事实微调到内存中更有效。我们的工作提供了理论和经验基础,确立了为什么工具增强的工作流程不仅实用,而且是可证明更具可扩展性的。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 工具增强的语言模型,配备了检索、记忆或外部 API,正在重塑 AI,但它们的理论优势仍未得到充分探索。本文通过证明内部学习(外部检索)相对于内部权重学习(记忆)在事实回忆方面的优势来解决这个问题。我们表明,模型仅凭其权重可以记忆的事实数量在根本上受其参数数量的限制。相反,我们证明了工具使用通过简单高效的电路构造实现了无界的事实回忆。这些结果在受控实验中得到了验证,在这些实验中,使用工具的模型一致优于记忆模型。我们进一步表明,对于预训练的大型语言模型来说,教授工具使用和通用规则比将事实微调到记忆中更有效。我们的工作提供了理论和实证基础,确立了为什么工具增强的工作流程不仅实用,而且在理论上更具可扩展性。