⏶19
平静在风暴之前:解锁用于优化建模的原生推理
发表
由
Zhengyang Tang 提交
作者:
Zhengyang Tang, Zihan Ye, Chenyu Huang,
Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang
摘要
AI 生成总结
CALM框架使用专家干预来完善LRM推理,以进行优化任务,与传统方法相比,它以更少的修改实现了高精度。大型推理模型 (LRM) 在复杂的多步推理方面展现出强大的能力,为自动化优化建模开辟了新的机遇。然而,现有的领域自适应方法最初是为早期经过指令微调的模型设计的,往往无法充分利用现代 LRM 的高级推理模式——特别是,我们发现直接在传统的非反思数据集上进行微调所带来的收益有限。为了充分发挥 LRM 的内在推理能力,我们提出了 CALM(Corrective Adaptation with Lightweight Modification),一个在优化建模任务中,渐进式地在 LRM 的原生推理模式下对其进行精炼的框架。在 CALM 中,一个专家干预者会识别推理缺陷,并提供简洁的纠正性提示,LRM 会整合这些提示以生成改进的推理轨迹。这些干预仅修改生成 token 的 2.6% 以下,但通过监督微调生成高质量数据以进行软适应。然后,通过强化学习进一步改进适应后的模型。基于 CALM,我们开发了 STORM(Smart Thinking Optimization Reasoning Model),一个 40 亿参数的 LRM,在五个流行的优化建模基准测试中实现了 68.9% 的新 state-of-the-art 平均准确率,与一个 6710 亿参数 LRM 的性能相当。这些结果表明,动态的、基于提示的数据合成既能保留又能放大现代 LRM 的原生推理模式,为在具有挑战性的优化建模任务上实现专家级性能提供了一条更有效且可扩展的路径。
我们介绍了 STORM,一个 4B 参数模型,在 5 个优化建模基准上取得了新的 SOTA(平均准确率 68.9%),达到了 671B 模型的性能。