⏶77
利用检索和代码工具将LLM智能体蒸馏到小模型
发表
由
Minki Kang 提交
作者:
Minki Kang, Jongwon Jeong,
Seanie Lee, Jaewoong Cho, Sung Ju Hwang
摘要
大型语言模型(LLM)擅长复杂的推理任务,但计算成本仍然很高,这限制了它们的实际部署。为了解决这个问题,近期的工作重点在于使用来自教师 LLM 的思维链(CoT)轨迹,将推理能力蒸馏到更小的语言模型(sLM)中。然而,这种方法在需要罕见事实知识或精确计算的场景中难以应对,在这些情况下,sLM 由于能力有限常常出现幻觉。在这项工作中,我们提出了 Agent Distillation(代理蒸馏),这是一个将基于 LLM 的代理不仅推理能力,而且完整的任务解决行为转移到配备检索和代码工具的 sLM 中的框架。我们从两个互补的维度改进了代理蒸馏:(1) 我们引入了一种名为 first-thought prefix(首思前缀)的提示方法,以提高教师生成的轨迹的质量;和 (2) 我们提出了一种自洽的行动生成方法,以提高小型代理在测试时的鲁棒性。我们在涵盖事实和数学领域的八个推理任务上评估了我们的方法,包括域内和域外泛化。我们的结果表明,参数量小至 0.5B、1.5B、3B 的 sLM 可以达到与使用 CoT 蒸馏微调的下一层次更大的 1.5B、3B、7B 模型相当的性能,证明了代理蒸馏在构建实用的、使用工具的小型代理方面的潜力。我们的代码可在 https://github.com/Nardien/agent-distillation 获取。
代码:https://github.com/Nardien/agent-distillation