⏶54

不要过度思考。偏好更短的思维链以改进 LLM 推理

05月23日发表

05月28日由 Michael Hassid 提交

作者: Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz

摘要

推理大型语言模型（LLMs）通过生成大量“思维”链，严重依赖于在测试时增加计算量来执行复杂的推理任务。尽管取得了令人印象深刻的结果，但这种方法会产生显著的计算成本和推理时间。在这项工作中，我们挑战了“长思维链会带来更好的推理能力”这一假设。我们首先证明，单个问题中较短的推理链更有可能产生正确答案——比同一问题中采样的最长链准确率高出高达 34.5%。基于这些结果，我们提出了一种新颖的推理 LLM 推理方法 short-m@k。我们的方法并行执行 k 次独立生成，并在前 m 个思维过程完成后停止计算。最终答案通过这 m 个链的多数投票选出。基本的 short-1@k 在低计算环境下表现出与标准多数投票相似甚至更优的性能——使用的思维 token 减少高达 40%。short-3@k 虽然效率略低于 short-1@k，但在所有计算预算下都持续优于多数投票，同时仍然显著更快（墙钟时间减少高达 33%）。受我们结果的启发，我们使用短、长和随机选择的推理链对 LLM 进行了微调。然后我们观察到，在较短的链上进行训练会带来更好的性能。我们的研究结果表明，应该重新思考推理 LLM 中当前的测试时计算方法，强调“更长的思考”不一定转化为性能提升，并且可能适得其反地导致结果退化。

查看 arXiv 页面查看 PDF

Michael Hassid

论文作者

论文提交者

Shubham Toshniwal

很棒的工作！我们在我们的论文中也有类似的发现 - 第 6.3.3 节

metallama

嗯... 有意思。我试试在我的 Spaces 上实现一下 https://huggingface.com/llamameta

不要过度思考。偏好更短的思维链以改进 LLM 推理

摘要

评论