⏶20
A^2FM:一种用于工具感知混合推理的自适应代理基础模型
发表
由
Chen 提交
作者: Qianben Chen, Jingyi Cao, Jiayu Zhang,
Tianrui Qin, Xiaowan Li,
King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou

摘要
AI 生成总结
统一框架 A$^2$FM 将推理和代理能力结合到大型语言模型中,通过自适应路由查询和优化策略,提高了跨基准的效率和准确性。大型语言模型分为两大类:以推理为中心的大型语言模型,它们能加强内部思维链推理但无法调用外部工具;以及以代理为中心的大型语言模型,它们学会与环境交互并利用工具,但往往在深度推理方面滞后。这种分歧源于根本不同的训练目标,导致在简单查询上存在不匹配的优势和效率低下,这两类模型都倾向于过度思考或过度调用工具。在这项工作中,我们提出了自适应代理基础模型 (A²FM),这是一个遵循“先路由后对齐”原则的统一框架:模型首先学习任务感知的路由,然后在共享主干下对齐特定模式的轨迹。为了弥合效率差距,我们引入了第三种模式——即时模式,它直接处理简单查询,避免不必要的推理或工具调用,同时补充了代理模式和推理模式。为了共同提高准确性和效率,我们提出了自适应策略优化 (APO),它强制跨模式自适应采样并应用成本正则化奖励。在 32B 规模下,A²FM 在 BrowseComp 上达到 13.4%,在 AIME25 上达到 70.4%,在 HLE 上达到 16.7%,创下了同类模型的新 SOTA 记录,并在代理、推理和通用基准测试中与前沿大型语言模型不相上下。值得注意的是,自适应执行的成功率成本仅为每正确答案 $0.00487,相对于推理模式降低了 45.2% 的成本,相对于代理模式降低了 33.5%,从而在保持可比准确性的同时提供了实质上更高的成本效益。
评论
论文提交者