⏶114
超越上下文限制:用于长程推理的潜意识线索
发表
由
Hongyin Luo 提交

作者:
Hongyin Luo,
Nathaniel Morgan,
Tina Li,
Derek Zhao,
Ai Vy Ngo, Philip Schroeder,
Lijie Yang,
Assaf Ben-Kish,
Jack O'Brien, James Glass




摘要
为了打破大型语言模型(LLM)的上下文限制(这限制了推理的准确性和效率),我们提出了线程推理模型(TIM),这是一个为递归和分解问题解决而训练的LLM系列,以及TIMRUN,一个支持超越上下文限制的长程结构化推理的推理运行时。TIM与TIMRUN结合使用,可以在单次语言模型推理中支持几乎无限的工作内存和多跳工具调用,克服了输出限制、位置嵌入约束和GPU内存瓶颈。其性能的实现方式是将自然语言建模为以长度和深度衡量的推理树,而非线性序列。推理树由任务组成,包含思想、递归子任务和基于我们在Schroeder et al, 2025中提出的概念的结论。在生成过程中,我们维护一个工作内存,该内存仅保留最相关上下文令牌的键值状态(通过基于规则的子任务剪枝机制选择),从而在整个推理过程中实现位置嵌入和GPU内存页的重用。实验结果表明,即使在操纵高达90%的GPU内存KV缓存时,我们的系统也能保持高推理吞吐量。它还能在数学任务上提供准确的推理,并处理需要长程推理和多跳工具使用的信息检索挑战。

TIMRUN API 已上线:https://subconscious.dev