⏶7
深度自演化推理
发表
由
Shun Zheng 提交
作者: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang
摘要
AI 生成总结
深度自演化推理(DSER)通过概率马尔可夫链迭代改进解决方案,扩展了小型模型的推理能力,使其能够解决以前无法解决的问题,并在准确性方面超越大型模型。长篇思维链推理已成为大型语言模型高级推理的基石。尽管最近的验证-细化框架使专有模型能够解决奥赛级别的难题,但它们的有效性依赖于强大、可靠的验证和纠正能力,而这些能力在开放权重、小规模模型中仍然很脆弱。这项工作表明,即使在困难任务上验证和细化能力较弱的情况下,通过我们称为深度自演化推理(DSER)的概率范式,也可以显著扩展这些模型的推理极限。我们将迭代推理概念化为一个马尔可夫链,其中每一步代表解空间中的一个随机转移。关键的见解是,只要改进的概率略微超过退化的概率,收敛到正确解就得到了保证。通过并行运行多个长周期、自演化过程,DSER放大了这些微小的积极倾向,使模型能够渐近地接近正确答案。在经验上,我们将DSER应用于DeepSeek-R1-0528-Qwen3-8B模型。在具有挑战性的AIME 2024-2025基准测试上,DSER解决了5个之前无法解决的问题,并提高了整体性能,使这个紧凑的模型通过多数投票超过了其6000亿参数教师的单轮准确性。除了其在测试时间扩展方面的直接效用外,DSER框架还用于诊断当前开放权重推理器的根本局限性。通过清晰地阐明它们在自我验证、细化和稳定性方面的不足,我们的发现为开发具有强大、内在自演化能力的新一代模型建立了一个清晰的研究议程。
小模型如何像巨型模型一样进行推理?通过 Deep Self-Evolving Reasoning (DSER),一种将迭代验证和改进重构为随机过程的新范式。通过运行多个并行、长期的“自我进化”,DSER 指导模型自然地收敛到正确的解决方案。这使得紧凑的 DeepSeek-R1-0528-Qwen3-8B 解决了 9 个先前无法解决的 AIME 问题中的 5 个,其性能与 600B 参数的教师 DeepSeek-R1-0528 相媲美。