CODA:通过解耦强化学习协调大脑和 cerebellum,用于双脑电脑使用代理

发表
Zeyi SunZeyi Sun 提交
作者: Zeyi SunZeyi Sun, Yuhang Cao, Jianze Liang, QiushiQiushi Sun, Ziyu Liu, Zhixiong ZhangZhixiong Zhang, Yuhang ZangYuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang

摘要

图形用户界面(GUI)的自主代理在科学计算等专业领域面临重大挑战,这些领域既需要长时程规划也需要精确执行。现有方法存在权衡:通用型代理在规划方面表现出色,但在执行方面表现不佳,而专业型代理则表现出相反的弱点。最近的组合框架试图通过结合规划器和执行器来弥合这一差距,但它们通常是静态且不可训练的,这阻碍了从经验中进行适应。考虑到科学领域高质量数据的稀缺性,这是一个关键限制。为了解决这些限制,我们引入了 CODA,一个新颖且可训练的组合框架,它通过专门的两阶段管道将通用型规划器(Cerebrum)与专业型执行器(Cerebellum)集成。在第一阶段,专业化,我们应用解耦的 GRPO 方法为每个科学应用程序单独训练专家规划器,并从少量任务轨迹中启动。在第二阶段,泛化,我们将所有成功轨迹从专业化专家那里聚合起来,构建一个统一的数据集,然后用于最终规划器的监督微调。这使 CODA 具备了强大的执行能力和跨领域泛化能力。在 ScienceBoard 基准测试中的四个挑战性应用上进行评估,CODA 的表现显著优于基线,并创下了开源模型的新技术水平。
查看 arXiv 页面查看 PDF

评论

Zeyi SunZeyi Sun
论文作者
论文提交者

代码可在 https://github.com/OpenIXCLab/CODA 获取