⏶89
AlphaOne:测试时慢思考和快思考的推理模型
发表
由
Runpei Dong 提交

作者:
Junyu Zhang,
Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang


摘要
这篇论文介绍了 AlphaOne (alpha1),一个在测试时调节大型推理模型 (LRMs) 推理过程的通用框架。alpha1 首先引入了 alpha 时刻,它代表了由一个通用参数 alpha 缩放的思考阶段。在这个缩放的 alpha 时刻前阶段内,它通过将推理过渡 token 的插入建模为伯努利随机过程,动态调度慢思考过渡。在 alpha 时刻之后,alpha1 通过思考结束 token 确定性地终止慢思考,从而促进快速推理和高效答案生成。这种方法通过实现灵活且密集的慢到快推理调节,统一并概括了现有的单调缩放方法。在数学、编码和科学领域各种具有挑战性的基准测试上的大量实证研究表明,alpha1 具有卓越的推理能力和效率。项目页面:https://alphaone-project.github.io/

论文:https://arxiv.org/abs/2505.24863
项目:https://alphaone-project.github.io/
代码(即将发布):https://github.com/ASTRAL-Group/AlphaOne