睡眠时间计算:超越测试时推理扩展

发表
Hao JiangHao Jiang 提交
作者: Kevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez

摘要

扩大测试时计算已成为使大型语言模型 (LLMs) 能够解决难题的关键要素,但同时也带来了高延迟和推理成本。我们引入了睡眠时计算,这使得模型能够在查询呈现之前离线“思考”上下文:通过预测用户可能提出的查询并预计算有用信息,我们可以显著降低测试时的计算需求。为了展示我们方法的功效,我们创建了两个推理任务的修改版本——有状态的 GSM-Symbolic 和有状态的 AIME。我们发现,睡眠时计算可以将在有状态的 GSM-Symbolic 和有状态的 AIME 上达到相同准确率所需的测试时计算量减少约 5 倍。 此外,通过扩展睡眠时计算,我们可以进一步提高准确率,在有状态的 GSM-Symbolic 上提高高达 13%,在有状态的 AIME 上提高高达 18%。此外,我们还引入了 Multi-Query GSM-Symbolic,它通过在每个上下文中包含多个相关查询来扩展 GSM-Symbolic。通过使用 Multi-Query GSM-Symbolic 将睡眠时计算分摊到关于同一上下文的相关查询上,我们可以将每个查询的平均成本降低 2.5 倍。随后,我们进行了进一步的分析,以了解睡眠时计算在何时最为有效,并发现用户查询的可预测性与睡眠时计算的功效密切相关。最后,我们进行了一个案例研究,将睡眠时计算应用于一个现实的智能体驱动的 SWE 任务。
查看 arXiv 页面查看 PDF

评论

Hao JiangHao Jiang
论文提交者

扩展测试时计算已成为使大型语言模型 (LLM) 解决难题的关键要素,但同时也带来了高延迟和推理成本。我们引入了睡眠时计算,它允许模型在查询呈现之前离线“思考”上下文:通过预测用户可能提出的查询并预先计算有用的量,我们可以显著降低测试时计算的需求。为了证明我们方法的有效性,我们创建了两个推理任务的修改版本——Stateful GSM-Symbolic 和 Stateful AIME。我们发现,睡眠时计算可以将在 Stateful GSM-Symbolic 和 Stateful AIME 上达到相同精度所需的测试时计算量减少约 5 倍,并且通过扩展睡眠时计算,我们可以进一步将 Stateful GSM-Symbolic 的准确率提高多达 13%,将 Stateful AIME 的准确率提高多达 18%。此外,我们引入了 Multi-Query GSM-Symbolic,它通过在每个上下文中包含多个相关查询来扩展 GSM-Symbolic。通过使用 Multi-Query GSM-Symbolic 将睡眠时计算分摊到关于同一上下文的相关查询中,我们可以将每个查询的平均成本降低 2.5 倍。然后,我们进行了额外的分析,以了解睡眠时计算何时最有效,发现用户查询的可预测性与睡眠时计算的有效性高度相关。最后,我们进行了一个案例研究,将睡眠时计算应用于实际的 Agentic SWE 任务。

Yufan SongYufan Song

代码链接似乎无法打开:https://github.com/letta-ai/sleep-time-compute