⏶42
FlowReasoner:增强查询级元代理
发表
由
yueliu1999 提交
作者:
Hongcheng Gao,
Yue Liu, Yufei He,
Longxu Dou, Chao Du, Zhijie Deng,
Bryan Hooi, Min Lin,
Tianyu Pang



摘要
本文提出了一种名为 FlowReasoner 的查询级元代理,以自动化查询级多代理系统的设计,即每个用户查询一个系统。我们的核心思想是通过外部执行反馈来激励基于推理的元代理。具体而言,通过提炼 DeepSeek R1,我们首先赋予 FlowReasoner 关于生成多代理系统的基本推理能力。然后,我们通过强化学习 (RL) 和外部执行反馈进一步增强它。设计了一种多用途奖励,以从性能、复杂性和效率等方面指导 RL 训练。通过这种方式,FlowReasoner 能够通过审议推理为每个用户查询生成个性化的多代理系统。在工程和竞赛代码基准上的实验证明了 FlowReasoner 的优越性。值得注意的是,它在三个基准测试中超越了 o1-mini 10.52% 的准确率。代码可在 https://github.com/sail-sg/FlowReasoner 获取。
FlowReasoner 是一种基于推理的元代理,它使用来自外部执行反馈的蒸馏和强化学习,为每个查询动态生成个性化的多代理系统。