⏶19
使用大型混合推理模型的按需思考
发表
由
Xun Wu 提交
作者:
Lingjie Jiang,
Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei
摘要
最近的大型推理模型(LRM)通过在产生最终响应之前纳入扩展的思考过程,显着提高了相对于传统大型语言模型(LLM)的推理能力。然而,过度冗长的思考会引入大量的开销,包括令牌消耗和延迟,这对于简单的查询来说尤其不必要。在这项工作中,我们引入了大型混合推理模型(LHRM),这是第一种能够根据用户查询的上下文信息自适应地决定是否进行思考的模型。为了实现这一点,我们提出了一个两阶段训练流程,包括作为冷启动的混合微调(HFT),然后是在线强化学习,并采用我们提出的混合群策略优化(HGPO)来隐式学习选择合适的思考模式。此外,我们引入了一个称为混合准确率(Hybrid Accuracy)的指标来定量评估模型的混合思考能力。大量的实验结果表明,LHRM 能够自适应地对不同难度和类型的查询进行混合思考。它在推理和通用能力方面优于现有的 LRM 和 LLM,同时显着提高了效率。总之,我们的工作倡导重新思考扩展思考过程的适当使用,并为构建混合思考系统提供了一个坚实的起点。
最近的大型推理模型 (LRMs) 通过在生成最终响应之前纳入扩展的思考过程,相比传统大型语言模型 (LLMs) 表现出显著提升的推理能力。然而,过度冗长的思考会在 token 消耗和延迟方面引入大量开销,这对于简单查询来说尤其不必要。在这项工作中,我们引入了大型混合推理模型 (LHRMs),这是第一种能够根据用户查询的上下文信息自适应决定是否进行思考的模型。为了实现这一点,我们提出了一个两阶段训练流程,包括作为冷启动的混合微调 (HFT),随后是采用我们提出的混合群体策略优化 (HGPO) 进行在线强化学习,以隐式地学习选择适当的思考模式。此外,我们引入了一种称为混合准确率的指标,用于定量评估模型的混合思考能力。广泛的实验结果表明,LHRMs 能够对不同难度和类型的查询自适应地执行混合思考。它在推理和通用能力上优于现有的 LRMs 和 LLMs,同时显著提高了效率。总之,我们的工作倡导重新考虑扩展思考过程的适当使用,并为构建混合思考系统提供了一个坚实的基础。