推断时计算中的逆向缩放

发表
Pasquale MinerviniPasquale Minervini 提交
作者: Aryo Pradipta GemaAryo Pradipta Gema, Alexander HägeleAlexander Hägele, Runjin ChenRunjin Chen, Andy ArditiAndy Arditi, Jacob Goldman-Wetzler, Kit Fraser-TalienteKit Fraser-Taliente, Henry Sleight, Linda PetriniLinda Petrini, Julian MichaelJulian Michael, Beatrice Alex, Pasquale MinerviniPasquale Minervini, Yanda Chen, Joe Benton, Ethan Perez

摘要

我们构建了评估任务,发现在这些任务中,扩展大型推理模型(LRM)的推理长度会使性能下降,表现出测试时计算量与准确性之间的反向缩放关系。我们的评估任务涵盖四类:带有干扰物的简单计数任务、带有虚假特征的回归任务、带有约束跟踪的演绎任务,以及高级AI风险。我们确定了模型在更长时间推理时出现的五种不同失败模式:1)Claude模型越来越容易被不相关信息分散注意力;2)OpenAI o-系列模型能够抵抗干扰物,但过度拟合问题表述;3)模型从合理的先验知识转向虚假关联;4)所有模型在复杂的演绎任务中都难以保持专注;5)扩展推理可能会放大令人担忧的行为,其中Claude Sonnet 4表现出更强的自我保护意图。这些发现表明,虽然测试时计算量扩展仍有望提高模型能力,但它可能无意中强化有问题的推理模式。我们的结果证明了评估模型在不同推理长度下的重要性,以识别和解决LRM中的这些失败模式。
查看 arXiv 页面查看 PDF

评论

Pasquale MinerviniPasquale Minervini
论文作者
论文提交者

有时,过多的推理反而会降低模型性能!