⏶11

AdaR1：通过双层自适应推理优化从 Long-CoT 到 Hybrid-CoT

04月30日发表

05月02日由 Haotian Luo 提交

作者: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, caoxiaochun Xiaochun Cao, Dacheng Tao, Li Shen

摘要

最近，长思推理模型在复杂推理任务上取得了强大的性能，但通常会产生大量的推理开销，使得效率成为一个关键问题。我们的实证分析表明，使用长 CoT 的益处因问题而异：有些问题需要精密的推理，而有些问题则没有改善，甚至精度下降。这促使我们采用自适应推理策略，根据输入调整推理深度。然而，先前的工作主要减少长推理路径中的冗余，限制了对长 CoT 范式之外更有效策略的探索。为了解决这个问题，我们提出了一个新颖的两阶段框架，用于自适应高效推理。首先，我们通过合并长 CoT 模型和短 CoT 模型构建了一个混合推理模型，以实现多样化的推理风格。其次，我们应用双层偏好训练来引导模型选择合适的推理风格（群组级别），并在每种风格群组内偏好简洁正确的推理（实例级别）。实验表明，我们的方法在保持性能的同时，显著降低了与其它基线方法相比的推理成本。值得注意的是，在五个数学数据集上，推理的平均长度减少了 50% 以上，凸显了自适应策略优化大型语言模型推理效率的潜力。我们的代码即将发布，网址为：https://github.com/StarDewXXX/AdaR1

查看 arXiv 页面查看 PDF

Haotian Luo

论文作者

论文提交者

最近，长思考推理模型在复杂推理任务上取得了强大的性能，但通常会产生大量的推理开销，这使得效率成为一个关键问题。我们的实证分析表明，使用 Long-CoT 的益处因问题而异：有些问题需要精心推理，而有些问题则没有改进，甚至精度有所下降。这激发了自适应推理策略的研究，即根据输入调整推理深度。然而，先前的工作主要减少长推理路径内的冗余，限制了对 Long-CoT 范式之外更高效策略的探索。为了解决这个问题，我们提出了一个新的两阶段框架，用于自适应和高效推理。首先，我们通过合并长短 CoT 模型来构建混合推理模型，以实现多样化的推理风格。其次，我们应用双层偏好训练来引导模型选择合适的推理风格（组级），并在每种风格组内偏好简洁和正确的推理（实例级）。实验表明，与基线方法相比，我们的方法显著降低了推理成本，同时保持了性能。值得注意的是，在五个数学数据集上，推理的平均长度减少了 50% 以上，突出了自适应策略在优化大型语言模型推理效率方面的潜力。代码即将发布，敬请关注 https://github.com/StarDewXXX/AdaR1

AdaR1：通过双层自适应推理优化从 Long-CoT 到 Hybrid-CoT

摘要

评论