AdaCoT:基于强化学习的帕累托最优自适应思维链触发

发表
Wei ShenWei Shen 提交
作者: louchenweiChenwei Lou, Zewei SunZewei Sun, Xinnian Liang, Meng Qu, Wei ShenWei Shen, Wenqi Wang, Yuntao Li, Qingping YangQingping Yang, Shuangzhi WuShuangzhi Wu

摘要

大型语言模型(LLM)展现了卓越的能力,但在需要复杂推理的任务中经常面临挑战。虽然思维链(CoT)提示显著增强了推理能力,但它对所有查询都无差别地生成冗长的推理步骤,导致巨大的计算成本和低效率,尤其是对于较简单的输入。为了解决这一关键问题,我们引入了 AdaCoT(自适应思维链),这是一个新颖的框架,使 LLM 能够自适应地决定何时调用 CoT。AdaCoT 将自适应推理构建为一个帕累托优化问题,旨在平衡模型性能与调用 CoT 相关的成本(包括频率和计算开销)。我们提出了一种基于强化学习(RL)的方法,特别是利用近端策略优化(PPO),通过调整惩罚系数来动态控制 CoT 触发决策边界,从而允许模型根据隐式查询复杂度来确定 CoT 的必要性。一个关键的技术贡献是选择性损失掩蔽(SLM),旨在抵消多阶段 RL 训练中的决策边界崩溃问题,确保稳健和稳定的自适应触发。实验结果表明,AdaCoT 成功地遍历了帕累托前沿,对于不需要详细推理的查询,显著降低了 CoT 的使用。例如,在我们的生产流量测试集上,AdaCoT 将 CoT 触发率降低至 3.18\%,平均响应 token 减少了 69.06%,同时在复杂任务上保持了高性能。
查看 arXiv 页面查看 PDF

评论

Wei ShenWei Shen
论文作者
论文提交者

大语言模型 (LLMs) 已展示出卓越的能力,但在需要复杂推理的任务上常面临挑战。虽然思维链 (CoT) 提示显著增强了推理能力,但它会不加区分地为所有查询生成冗长的推理步骤,导致巨大的计算成本和低效率,特别是对于更简单的输入。为了解决这个关键问题,我们引入了 AdaCoT (自适应思维链),这是一个新颖的框架,使 LLMs 能够自适应地决定何时调用 CoT。AdaCoT 将自适应推理构建为一个帕累托优化问题,旨在平衡模型性能与调用 CoT 相关的成本(包括频率和计算开销)。我们提出了一种基于强化学习 (RL) 的方法,特别是利用近端策略优化 (PPO),通过调整惩罚系数来动态控制 CoT 触发决策边界,从而允许模型根据隐式查询复杂度判断 CoT 的必要性。一个关键的技术贡献是选择性损失掩蔽 (SLM),旨在防止多阶段强化学习训练期间的决策边界崩溃,确保稳健和稳定的自适应触发。实验结果表明,AdaCoT 成功探索了帕累托前沿,对于不需要复杂推理的查询显著减少了 CoT 的使用。例如,在我们的生产流量测试集上,AdaCoT 将 CoT 触发率降低至 3.18\%,平均响应 token 减少了 69.06\%,同时在复杂任务上保持了高性能。