⏶54
不要过度思考。偏好更短的思维链以改进 LLM 推理
发表
由
Michael Hassid 提交
作者:
Michael Hassid,
Gabriel Synnaeve,
Yossi Adi, Roy Schwartz

摘要
推理大型语言模型(LLMs)通过生成大量“思维”链,严重依赖于在测试时增加计算量来执行复杂的推理任务。尽管取得了令人印象深刻的结果,但这种方法会产生显著的计算成本和推理时间。在这项工作中,我们挑战了“长思维链会带来更好的推理能力”这一假设。我们首先证明,单个问题中较短的推理链更有可能产生正确答案——比同一问题中采样的最长链准确率高出高达 34.5%。基于这些结果,我们提出了一种新颖的推理 LLM 推理方法 short-m@k。我们的方法并行执行 k 次独立生成,并在前 m 个思维过程完成后停止计算。最终答案通过这 m 个链的多数投票选出。基本的 short-1@k 在低计算环境下表现出与标准多数投票相似甚至更优的性能——使用的思维 token 减少高达 40%。short-3@k 虽然效率略低于 short-1@k,但在所有计算预算下都持续优于多数投票,同时仍然显著更快(墙钟时间减少高达 33%)。受我们结果的启发,我们使用短、长和随机选择的推理链对 LLM 进行了微调。然后我们观察到,在较短的链上进行训练会带来更好的性能。我们的研究结果表明,应该重新思考推理 LLM 中当前的测试时计算方法,强调“更长的思考”不一定转化为性能提升,并且可能适得其反地导致结果退化。
评论
论文作者
论文提交者