⏶15

睡眠时间计算：超越测试时推理扩展

04月17日发表

04月18日由 Hao Jiang 提交

作者: Kevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez

摘要

扩大测试时计算已成为使大型语言模型 (LLMs) 能够解决难题的关键要素，但同时也带来了高延迟和推理成本。我们引入了睡眠时计算，这使得模型能够在查询呈现之前离线“思考”上下文：通过预测用户可能提出的查询并预计算有用信息，我们可以显著降低测试时的计算需求。为了展示我们方法的功效，我们创建了两个推理任务的修改版本——有状态的 GSM-Symbolic 和有状态的 AIME。我们发现，睡眠时计算可以将在有状态的 GSM-Symbolic 和有状态的 AIME 上达到相同准确率所需的测试时计算量减少约 5 倍。此外，通过扩展睡眠时计算，我们可以进一步提高准确率，在有状态的 GSM-Symbolic 上提高高达 13%，在有状态的 AIME 上提高高达 18%。此外，我们还引入了 Multi-Query GSM-Symbolic，它通过在每个上下文中包含多个相关查询来扩展 GSM-Symbolic。通过使用 Multi-Query GSM-Symbolic 将睡眠时计算分摊到关于同一上下文的相关查询上，我们可以将每个查询的平均成本降低 2.5 倍。随后，我们进行了进一步的分析，以了解睡眠时计算在何时最为有效，并发现用户查询的可预测性与睡眠时计算的功效密切相关。最后，我们进行了一个案例研究，将睡眠时计算应用于一个现实的智能体驱动的 SWE 任务。

查看 arXiv 页面查看 PDF

Hao Jiang

论文提交者

扩展测试时计算已成为使大型语言模型 (LLM) 解决难题的关键要素，但同时也带来了高延迟和推理成本。我们引入了睡眠时计算，它允许模型在查询呈现之前离线“思考”上下文：通过预测用户可能提出的查询并预先计算有用的量，我们可以显著降低测试时计算的需求。为了证明我们方法的有效性，我们创建了两个推理任务的修改版本——Stateful GSM-Symbolic 和 Stateful AIME。我们发现，睡眠时计算可以将在 Stateful GSM-Symbolic 和 Stateful AIME 上达到相同精度所需的测试时计算量减少约 5 倍，并且通过扩展睡眠时计算，我们可以进一步将 Stateful GSM-Symbolic 的准确率提高多达 13%，将 Stateful AIME 的准确率提高多达 18%。此外，我们引入了 Multi-Query GSM-Symbolic，它通过在每个上下文中包含多个相关查询来扩展 GSM-Symbolic。通过使用 Multi-Query GSM-Symbolic 将睡眠时计算分摊到关于同一上下文的相关查询中，我们可以将每个查询的平均成本降低 2.5 倍。然后，我们进行了额外的分析，以了解睡眠时计算何时最有效，发现用户查询的可预测性与睡眠时计算的有效性高度相关。最后，我们进行了一个案例研究，将睡眠时计算应用于实际的 Agentic SWE 任务。

Yufan Song

代码链接似乎无法打开：https://github.com/letta-ai/sleep-time-compute

睡眠时间计算：超越测试时推理扩展

摘要

评论