⏶37
Xolver:通过整体经验学习进行多智能体推理,就像奥林匹克竞赛团队一样
发表
由
Md Rizwan Parvez 提交
作者: Md Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez
摘要
尽管在复杂推理方面取得了令人瞩目的进展,但当前的大语言模型(LLM)通常独立运作——将每个问题视为一次独立的尝试,不积累或整合经验知识。相比之下,专家问题解决者——例如奥林匹克竞赛或编程比赛团队——则利用丰富的经验:吸收教练的指导,从过去的问题中培养直觉,利用工具使用和库功能的知识,根据同行的专业知识和经验调整策略,通过试错不断完善其推理,甚至在比赛期间也从其他相关问题中学习。我们引入了Xolver,一个无需训练的多智能体推理框架,它为黑盒LLM配备了持久且不断演进的整体经验记忆。Xolver整合了多种经验模式,包括外部和自我检索、工具使用、协作互动、智能体驱动的评估以及迭代优化。通过在推理时学习相关策略、代码片段和抽象推理模式,Xolver避免了从头开始生成解决方案——标志着从孤立推理向经验感知型语言智能体的转变。Xolver建立在开源和专有模型之上,持续优于专用推理智能体。即使使用轻量级骨干网络(例如QWQ-32B),它也常常超越包括Qwen3-235B、Gemini 2.5 Pro、o3和o4-mini-high在内的先进模型。使用o3-mini-high,它在GSM8K(98.1%)、AIME'24(94.4%)、AIME'25(93.7%)、Math-500(99.8%)和LiveCodeBench-V5(91.6%)上取得了新的最佳结果——突出了整体经验学习是迈向能够进行专家级推理的通用智能体的关键一步。代码和数据可在https://kagnlp.github.io/xolver.github.io/获取。
多智能体推理、经验学习、数学与代码推理、代码生成。