⏶11
AdaR1:通过双层自适应推理优化从 Long-CoT 到 Hybrid-CoT
发表
由
Haotian Luo 提交
作者:
Haotian Luo, Haiying He, Yibo Wang,
Jinluan Yang, Rui Liu, Naiqiang Tan,
Xiaochun Cao, Dacheng Tao, Li Shen
摘要
最近,长思推理模型在复杂推理任务上取得了强大的性能,但通常会产生大量的推理开销,使得效率成为一个关键问题。我们的实证分析表明,使用长 CoT 的益处因问题而异:有些问题需要精密的推理,而有些问题则没有改善,甚至精度下降。这促使我们采用自适应推理策略,根据输入调整推理深度。然而,先前的工作主要减少长推理路径中的冗余,限制了对长 CoT 范式之外更有效策略的探索。为了解决这个问题,我们提出了一个新颖的两阶段框架,用于自适应高效推理。首先,我们通过合并长 CoT 模型和短 CoT 模型构建了一个混合推理模型,以实现多样化的推理风格。其次,我们应用双层偏好训练来引导模型选择合适的推理风格(群组级别),并在每种风格群组内偏好简洁正确的推理(实例级别)。实验表明,我们的方法在保持性能的同时,显著降低了与其它基线方法相比的推理成本。值得注意的是,在五个数学数据集上,推理的平均长度减少了 50% 以上,凸显了自适应策略优化大型语言模型推理效率的潜力。我们的代码即将发布,网址为:https://github.com/StarDewXXX/AdaR1
最近,长思考推理模型在复杂推理任务上取得了强大的性能,但通常会产生大量的推理开销,这使得效率成为一个关键问题。我们的实证分析表明,使用 Long-CoT 的益处因问题而异:有些问题需要精心推理,而有些问题则没有改进,甚至精度有所下降。这激发了自适应推理策略的研究,即根据输入调整推理深度。然而,先前的工作主要减少长推理路径内的冗余,限制了对 Long-CoT 范式之外更高效策略的探索。为了解决这个问题,我们提出了一个新的两阶段框架,用于自适应和高效推理。首先,我们通过合并长短 CoT 模型来构建混合推理模型,以实现多样化的推理风格。其次,我们应用双层偏好训练来引导模型选择合适的推理风格(组级),并在每种风格组内偏好简洁和正确的推理(实例级)。实验表明,与基线方法相比,我们的方法显著降低了推理成本,同时保持了性能。值得注意的是,在五个数学数据集上,推理的平均长度减少了 50% 以上,突出了自适应策略在优化大型语言模型推理效率方面的潜力。代码即将发布,敬请关注 https://github.com/StarDewXXX/AdaR1