⏶14
AdaCtrl: 通过难度感知预算实现自适应和可控推理
发表
由
Shijue Huang 提交
作者:
Shijue Huang,
Hongru Wang,
Wanjun Zhong,
Zhaochen Su,
Jiazhan Feng, Bowen Cao, Yi R. Fung


摘要
现代大型推理模型通过采用复杂的推理策略展现出令人印象深刻的问题解决能力。然而,它们通常难以平衡效率和有效性,对于简单问题也频繁生成不必要的冗长推理链。在这项工作中,我们提出了 AdaCtrl,一个支持难度感知自适应推理预算分配和用户对推理深度进行明确控制的新颖框架。AdaCtrl 根据自我评估的问题难度动态调整其推理长度,同时允许用户手动控制预算,以优先考虑效率或有效性。这通过一个两阶段的训练流程实现:首先是一个初始的冷启动微调阶段,以灌输自我感知难度并调整推理预算的能力,随后是一个难度感知强化学习(RL)阶段,该阶段根据模型在在线训练期间不断发展的能力来优化模型的自适应推理策略并校准其难度评估。为了实现直观的用户交互,我们设计了明确的长度触发标签,作为预算控制的自然接口。实证结果表明,与结合了微调和强化学习的标准训练基线相比,AdaCtrl 根据估计难度调整推理长度,在需要详细推理的更具挑战性的 AIME2024 和 AIME2025 数据集上,它带来了性能提升,同时将响应长度缩短了 10.06% 和 12.14%;而在更简洁的响应就足够的 MATH500 和 GSM8K 数据集上,缩短了 62.05% 和 91.04%。此外,AdaCtrl 支持用户对推理预算进行精确控制,从而实现定制响应以满足特定需求。
这项工作正在进行中,我们期待很快发布更多细节。