⏶14
ThinkDial:一种控制大型语言模型推理努力的开放食谱
发表
由
taesiri 提交

作者: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
摘要
具有思维链推理能力的大型语言模型 (LLM) 展现了卓越的问题解决能力,但控制它们的计算量仍然是实际部署的一个重大挑战。最近的专有系统(如 OpenAI 的 gpt-oss 系列)为直观的推理控制引入了离散操作模式,但开源社区在这方面一直未能实现这样的能力。在本文中,我们介绍了 ThinkDial,第一个开源配方端到端框架,该框架通过离散操作模式成功实现了 gpt-oss 式的可控推理。我们的系统能够在这三种不同的推理模式之间无缝切换:高模式(完全推理能力)、中模式(50% 的 token 缩减,性能下降 <10%)和低模式(75% 的 token 缩减,性能下降 <15%)。我们通过一个端到端训练范式来实现这一点,该范式将预算模式控制集成到整个管道中:预算模式监督微调,将可控推理能力直接嵌入学习过程,以及具有自适应奖励塑形的双阶段预算感知强化学习。广泛的实验表明,ThinkDial 在实现目标压缩-性能权衡的同时,响应长度明显缩短,同时保持了性能阈值。该框架还在分布外任务上表现出强大的泛化能力。
评论
很高兴看到这项工作采用了我们之前的工作“面向 LLM 推理的测试时间计算的思考最优缩放”(https://arxiv.org/abs/2502.18080)中使用的相同的推理工作量控制系统提示来构建 SFT 数据!
> 具有思维链推理能力的大型语言模型(LLM)已展现出卓越的问题解决能力,但控制其计算量仍然是实际部署中的一个重大挑战。最近的专有系统,如 OpenAI 的 gpt-oss 系列,已经引入了离散的操作模式来进行直观的推理控制,但开源社区尚未实现此类功能。在本文中,我们介绍了 ThinkDial,这是第一个开源的端到端框架,成功地通过离散操作模式实现了 gpt-oss 式的可控推理。我们的系统能够在三种不同的推理模式之间无缝切换:高模式(完整的推理能力)、中模式(减少 50% 的 token,性能下降 <10%)和低模式(减少 75% 的 token,性能下降 <15%)。我们通过一个端到端的训练范式来实现这一点,该范式在整个管道中整合了预算模式控制:预算模式监督微调,将可控推理能力直接嵌入学习过程;以及具有自适应奖励塑造的两阶段预算感知强化学习。大量的实验表明,ThinkDial 在清晰的响应长度缩减的同时,实现了目标压缩-性能权衡,并保持了性能阈值。该框架在分布外任务上也表现出强大的泛化能力。