⏶69
通过环境扩展迈向通用智能代理
发表
由
taesiri 提交

作者: Runnan Fang, Shihao Cai, Baixuan Li,
Jialong Wu, Guangyu Li, Wenbiao Yin, Xinyu Wang, Xiaobin Wang,
Liangcai Su, Zhen Zhang, Shibin Wu, Zhengwei Tao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

摘要
AI 生成总结
一个可扩展的框架和两阶段微调策略增强了智能体在不同环境中的函数调用能力,提高了在智能体基准测试中的性能。高级代理智能是 LLM 在实际应用中部署的先决条件。各种实际 API 需要精确、鲁棒的函数调用智能,这需要代理通过在不同环境中进行交互来培养这些能力。函数调用能力的广度与代理训练的环境多样性密切相关。在这项工作中,我们扩展了环境,以推动通用代理智能的发展。这带来了两个主要挑战:(i)如何以有原则的方式扩展环境,以及(ii)如何有效地从与这些环境交互中获得的经验中训练代理能力。为了解决这些问题,我们设计了一个可扩展的框架,该框架自动构建完全模拟的异构环境,系统地拓宽了函数调用场景的空间。我们进一步采用了两阶段的代理微调策略:首先赋予代理基本的代理能力,然后将其专门化以适应领域特定的上下文。在代理基准测试 tau-bench、tau2-Bench 和 ACEBench 上进行的广泛实验表明,我们训练的模型 AgentScaler 显著增强了模型的函数调用能力。
评论

论文提交者
Github: https://github.com/Alibaba-NLP/DeepResearch
博客: https://tongyi-agent.github.io/blog/
先进的代理智能是将大型语言模型部署到实际应用的前提。各种现实世界的 API 需要精确、鲁棒的函数调用智能,这需要代理通过在不同环境中进行交互来发展这些能力。函数调用能力的广度与代理训练环境的多样性密切相关。在这项工作中,我们通过扩展环境来推进通用的代理智能。这带来了两个核心挑战:(i)如何以有原则的方式扩展环境,以及(ii)如何有效地从与这些环境的交互经验中训练代理能力。为了解决这些问题,我们设计了一个可扩展的框架,该框架自动构建完全模拟的异构环境,系统地拓宽了函数调用场景的空间。我们进一步调整了一个两阶段代理微调策略:首先赋予代理基本的代理能力,然后将其专门化到特定领域。在代理基准测试 tau-bench、tau2-Bench 和 ACEBench 上的广泛实验表明,我们训练的模型 AgentScaler 显著增强了模型的函数调用能力。