⏶17
苏格拉底-零:通过无数据代理协同进化引导推理
发表
由
Wang 提交

作者:
Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang

摘要
AI 生成总结
一个名为 Socratic-Zero 的框架通过三个智能体的协同进化自主生成高质量训练数据,提高了大型语言模型的推理任务性能。大型语言模型(LLM)在推理任务上的最新突破在很大程度上依赖于大规模、高质量的数据集——通常是人工注释的,因此难以扩展。虽然数据合成或蒸馏提供了一种有前途的替代方案,但现有方法在数据质量不一致和无法动态适应模型不断发展的能力方面存在不足,从而导致次优的训练信号。为了解决这些限制,我们引入了 Socratic-Zero,一个完全自主的框架,通过三个代理的协同进化,从最小的种子示例中生成高质量的训练数据:教师、求解器和生成器。求解器通过从成功和失败轨迹的首选项反馈中学习来不断改进其推理;教师根据求解器的弱点自适应地制定越来越具挑战性的问题;生成器蒸馏教师的问题设计策略,以实现可扩展、高保真的课程生成。这个闭环系统产生了一个自我改进的课程——不需要预先存在的任务或标签。值得注意的是,仅从 100 个种子问题开始,我们的 Socratic-Solver-8B 在七个数学推理基准(AMC23、AIME24-25、奥赛、MATH-500、Minerva 和 GSM8K)上比先前的数据合成方法平均提高了 +20.2 个百分点,并在 Qwen3 和 GLM4 系列模型上取得了持续的提升。更令人惊讶的是,来自 Socratic-Generator-32B 的合成数据使学生 LLM 在这些基准上能够实现比其他最先进(SOTA)的商业 LLM 更好的性能,包括 Qwen3-235B-A22B、DeepSeek-V3.1-671B、GPT-5、Gemini-2.5-Pro、Grok-4 和 Claude-4.1-Opus。
正在努力提升 LLM 的推理能力?🤯 对数据的无休止的需求是一个巨大的瓶颈。
当前的方法通常单独训练求解器或生成器,而忽略了它们至关重要的交互。
我们引入 Socratic-Zero:一个新框架,其中智能体协同进化,从(几乎)零开始引导 SOTA 推理。
📚 论文:https://arxiv.org/pdf/2509.24726
Socratic-Zero 从苏格拉底的“助产术”中汲取灵感,创建了一个自我改进的“铁三角”生态系统,以产生更好的求解器和生成器。
🧑🎓 求解器(学生):解决问题并从错误中学习。
👩🏫 教师(大师):根据求解器的具体弱点创建新问题。
✍️ 生成器(学徒):学习教师的专业策略,以创建可扩展、高质量的课程。
该系统是完全自主的。从仅 100 个种子问题开始,它创建了一个封闭的“教学-学习-练习”循环,驱动着一个改进的螺旋。
🚀 求解器结果:我们的 Socratic-Solver-8B 在 7 个数学基准测试中平均提高了 20%,而且所有这些都没有使用大量外部数据集!
但这不仅仅是关于解决问题。我们的生成器学会了创建世界一流的问题。
🤯 生成器结果:我们的 Socratic-Generator-32B 生成的数据使学生模型能够优于在 GPT-5、Gemini-2.5-Pro、Claude-4.1-Opus、Grok-4、Qwen3-235B 和 DeepSeek-V3.1 等大型模型上训练的数据!
协同进化是关键。通过教会智能体如何互相教学,我们开辟了一条新的可扩展、数据高效推理的途径。
我们欢迎您的反馈和批评!
📚 论文:https://arxiv.org/pdf/2509.24726
💻 代码:https://github.com/Frostlinx/Socratic-Zero