超越上下文限制:用于长程推理的潜意识线索

发表
Hongyin LuoHongyin Luo 提交
作者: Hongyin LuoHongyin Luo, NathanielNathaniel Morgan, Tina LiTina Li, Derek ZhaoDerek Zhao, Ai Vy NgoAi Vy Ngo, Philip Schroeder, Lijie YangLijie Yang, Assaf Ben-KishAssaf Ben-Kish, Jack O'BrienJack O'Brien, James Glass

摘要

为了打破大型语言模型(LLM)的上下文限制(这限制了推理的准确性和效率),我们提出了线程推理模型(TIM),这是一个为递归和分解问题解决而训练的LLM系列,以及TIMRUN,一个支持超越上下文限制的长程结构化推理的推理运行时。TIM与TIMRUN结合使用,可以在单次语言模型推理中支持几乎无限的工作内存和多跳工具调用,克服了输出限制、位置嵌入约束和GPU内存瓶颈。其性能的实现方式是将自然语言建模为以长度和深度衡量的推理树,而非线性序列。推理树由任务组成,包含思想、递归子任务和基于我们在Schroeder et al, 2025中提出的概念的结论。在生成过程中,我们维护一个工作内存,该内存仅保留最相关上下文令牌的键值状态(通过基于规则的子任务剪枝机制选择),从而在整个推理过程中实现位置嵌入和GPU内存页的重用。实验结果表明,即使在操纵高达90%的GPU内存KV缓存时,我们的系统也能保持高推理吞吐量。它还能在数学任务上提供准确的推理,并处理需要长程推理和多跳工具使用的信息检索挑战。
查看 arXiv 页面查看 PDF
超越上下文限制:用于长程推理的潜意识线索

评论

Hongyin LuoHongyin Luo
论文作者
论文提交者

TIMRUN API 已上线:https://subconscious.dev

Blake BlazeBlake Blaze

我非常期待不再因为需要开启新聊天而打断我的工作流程——对拥有不受记忆限制的LLM助手充满期待!迫不及待想看到未来的发展。

Devin NashDevin Nash

把记忆给我!这太棒了。

RosswillRosswill

好的,这很有希望!

Tomas GuiloffTomas Guiloff

真是太令人兴奋了!我自己也遇到过这个问题,就在我正在创办的这家初创公司里!

Michael BarryMichael Barry

很好的研究。

你们是打算保密数据集和 TIMRUN 引擎,还是有计划发布呢?

我之所以问这个问题,是因为我对你们如何解析层级结构很感兴趣。考虑到它是自回归的,即你们是先深度优先地完整输出整个层级结构,然后在计划确定后执行工具呢?还是广度优先地一次一层,等待工具结果,从而让计划在“运行时”动态展开,并具有自校正的涌现能力呢?如果是这样,你们如何处理节点之间的依赖关系、关键路径等问题?

Hongyin LuoHongyin Luo
论文作者
论文提交者

感谢您的关注和提问!结构通过自回归生成动态展开,无需预设深度优先或广度优先搜索以及暂停。我们实时处理工具调用和子任务剪枝。

我们将持续更新我们的仓库,并逐步发布数据和示例。我们将决定何时是发布该系统的最佳时机。

Michael BarryMichael Barry

谢谢。这是一个非常有前途的方向,不仅适用于推理,也适用于智能体推理,目前的方式效率非常低下。我很乐意看到类似这样的东西针对批量推理进行优化。我迫不及待地想在您决定发布时一睹为快。祝好运!

Hongyin LuoHongyin Luo
论文作者
论文提交者

谢谢,我们会随时向您通报!