⏶29
马尔可夫思考者
发表
由
Amirhossein Kazemnejad 提交
作者:
Milad Aghajohari,
Kamran Chitsaz,
Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy


摘要
AI 生成总结
Markovian 思维,在 Delethink 中实现,通过将思维长度与上下文大小解耦,实现了 LLM 中长链思维推理的高效可扩展强化学习,从而实现了线性计算和恒定内存使用。强化学习(RL)最近已成为训练产生长思维链(LongCoT)的推理大型语言模型(LLM)的有力方法。然而,标准的RL“思考环境”将状态定义为提示加上所有先前的推理标记,这使得状态无界,并迫使基于注意力策略的模型在思维链加长时付出二次方的计算成本。我们重新审视了环境本身。我们提出了“马尔可夫思维”(Markovian Thinking)范式,在这种范式中,策略在条件化于一个固定大小的状态时推进推理,从而将思维长度与上下文大小解耦。其直接后果是实现了线性计算成本和恒定内存。我们通过Delethink这一RL环境来实现这一想法,Delethink将推理结构化为固定大小的块。在每个块内,模型正常思考;在边界处,环境重置上下文,并用简短的结转信息重新初始化提示。通过RL,策略学会了在每个块的末尾写入文本状态,以便在重置后无缝地继续推理。在该环境中训练的R1-Distill 1.5B模型以8K标记的块进行推理,但思维长度可达24K标记,其性能可与或超越在24K预算下训练的LongCoT-RL相媲美。通过测试时间缩放,Delethink在LongCoT停滞不前时仍能继续改进。线性计算的效益是巨大的:我们经验性地估计,在平均思维长度为96K时,LongCoT-RL需要27个H100月的计算量,而Delethink仅需7个。对RL初始化的分析表明,现成的推理模型(1.5B-120B)在各种基准测试中,零样本(zero-shot)时经常能采样到马尔可夫轨迹,这提供了有效的正样本,使得RL能够大规模地发挥作用。我们的结果表明,重新设计思考环境是一个强大的杠杆:它能够在没有二次方开销的情况下实现非常长的推理,并为构建高效、可扩展的推理LLM开辟了道路。
要点