⏶77

利用检索和代码工具将LLM智能体蒸馏到小模型

05月23日发表

05月26日由 Minki Kang 提交

作者: Minki Kang, Jongwon Jeong, Seanie Lee, Jaewoong Cho, Sung Ju Hwang

摘要

大型语言模型（LLM）擅长复杂的推理任务，但计算成本仍然很高，这限制了它们的实际部署。为了解决这个问题，近期的工作重点在于使用来自教师 LLM 的思维链（CoT）轨迹，将推理能力蒸馏到更小的语言模型（sLM）中。然而，这种方法在需要罕见事实知识或精确计算的场景中难以应对，在这些情况下，sLM 由于能力有限常常出现幻觉。在这项工作中，我们提出了 Agent Distillation（代理蒸馏），这是一个将基于 LLM 的代理不仅推理能力，而且完整的任务解决行为转移到配备检索和代码工具的 sLM 中的框架。我们从两个互补的维度改进了代理蒸馏：(1) 我们引入了一种名为 first-thought prefix（首思前缀）的提示方法，以提高教师生成的轨迹的质量；和 (2) 我们提出了一种自洽的行动生成方法，以提高小型代理在测试时的鲁棒性。我们在涵盖事实和数学领域的八个推理任务上评估了我们的方法，包括域内和域外泛化。我们的结果表明，参数量小至 0.5B、1.5B、3B 的 sLM 可以达到与使用 CoT 蒸馏微调的下一层次更大的 1.5B、3B、7B 模型相当的性能，证明了代理蒸馏在构建实用的、使用工具的小型代理方面的潜力。我们的代码可在 https://github.com/Nardien/agent-distillation 获取。

查看 arXiv 页面查看 PDF

Minki Kang

论文作者

论文提交者

代码：https://github.com/Nardien/agent-distillation