⏶14

ThinkDial：一种控制大型语言模型推理努力的开放食谱

08月26日发表

08月27日由 taesiri 提交

作者: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen

摘要

具有思维链推理能力的大型语言模型 (LLM) 展现了卓越的问题解决能力，但控制它们的计算量仍然是实际部署的一个重大挑战。最近的专有系统（如 OpenAI 的 gpt-oss 系列）为直观的推理控制引入了离散操作模式，但开源社区在这方面一直未能实现这样的能力。在本文中，我们介绍了 ThinkDial，第一个开源配方端到端框架，该框架通过离散操作模式成功实现了 gpt-oss 式的可控推理。我们的系统能够在这三种不同的推理模式之间无缝切换：高模式（完全推理能力）、中模式（50% 的 token 缩减，性能下降 <10%）和低模式（75% 的 token 缩减，性能下降 <15%）。我们通过一个端到端训练范式来实现这一点，该范式将预算模式控制集成到整个管道中：预算模式监督微调，将可控推理能力直接嵌入学习过程，以及具有自适应奖励塑形的双阶段预算感知强化学习。广泛的实验表明，ThinkDial 在实现目标压缩-性能权衡的同时，响应长度明显缩短，同时保持了性能阈值。该框架还在分布外任务上表现出强大的泛化能力。

查看 arXiv 页面查看 PDF

taesiri

论文提交者

> 具有思维链推理能力的大型语言模型（LLM）已展现出卓越的问题解决能力，但控制其计算量仍然是实际部署中的一个重大挑战。最近的专有系统，如 OpenAI 的 gpt-oss 系列，已经引入了离散的操作模式来进行直观的推理控制，但开源社区尚未实现此类功能。在本文中，我们介绍了 ThinkDial，这是第一个开源的端到端框架，成功地通过离散操作模式实现了 gpt-oss 式的可控推理。我们的系统能够在三种不同的推理模式之间无缝切换：高模式（完整的推理能力）、中模式（减少 50% 的 token，性能下降 <10%）和低模式（减少 75% 的 token，性能下降 <15%）。我们通过一个端到端的训练范式来实现这一点，该范式在整个管道中整合了预算模式控制：预算模式监督微调，将可控推理能力直接嵌入学习过程；以及具有自适应奖励塑造的两阶段预算感知强化学习。大量的实验表明，ThinkDial 在清晰的响应长度缩减的同时，实现了目标压缩-性能权衡，并保持了性能阈值。该框架在分布外任务上也表现出强大的泛化能力。

Wenkai Yang

很高兴看到这项工作采用了我们之前的工作“面向 LLM 推理的测试时间计算的思考最优缩放”（https://arxiv.org/abs/2502.18080）中使用的相同的推理工作量控制系统提示来构建 SFT 数据！

ThinkDial：一种控制大型语言模型推理努力的开放食谱

摘要

评论