利用检索和代码工具将LLM智能体蒸馏到小模型

发表
Minki KangMinki Kang 提交
作者: Minki KangMinki Kang, Jongwon Jeong, Seanie LeeSeanie Lee, Jaewoong Cho, Sung Ju Hwang

摘要

大型语言模型(LLM)擅长复杂的推理任务,但计算成本仍然很高,这限制了它们的实际部署。为了解决这个问题,近期的工作重点在于使用来自教师 LLM 的思维链(CoT)轨迹,将推理能力蒸馏到更小的语言模型(sLM)中。然而,这种方法在需要罕见事实知识或精确计算的场景中难以应对,在这些情况下,sLM 由于能力有限常常出现幻觉。在这项工作中,我们提出了 Agent Distillation(代理蒸馏),这是一个将基于 LLM 的代理不仅推理能力,而且完整的任务解决行为转移到配备检索和代码工具的 sLM 中的框架。我们从两个互补的维度改进了代理蒸馏:(1) 我们引入了一种名为 first-thought prefix(首思前缀)的提示方法,以提高教师生成的轨迹的质量;和 (2) 我们提出了一种自洽的行动生成方法,以提高小型代理在测试时的鲁棒性。我们在涵盖事实和数学领域的八个推理任务上评估了我们的方法,包括域内和域外泛化。我们的结果表明,参数量小至 0.5B、1.5B、3B 的 sLM 可以达到与使用 CoT 蒸馏微调的下一层次更大的 1.5B、3B、7B 模型相当的性能,证明了代理蒸馏在构建实用的、使用工具的小型代理方面的潜力。我们的代码可在 https://github.com/Nardien/agent-distillation 获取。
查看 arXiv 页面查看 PDF

评论

Minki KangMinki Kang
论文作者
论文提交者

代码:https://github.com/Nardien/agent-distillation

YJYJ

7FAEBE51-42AA-4404-81F3-7B5CB1F2F712.png

音频概述 😀

第 83 集:通过检索和代码工具将 LLM 代理精炼成小型模型

https://youtu.be/D6WYkoSYYUY

Thomas NguyenThomas Nguyen

我创建了一个分支,使用 Cloudflare Workers AI API 来生成合成数据,花费了我 $5000 的额度。

数据也已提供。

https://github.com/ThomasVuNguyen/agent-distillation

Jack C CrawfordJack C Crawford

很棒的工作!已在 X 上分享:https://x.com/jackccrawford/status/1927208511869465039