⏶29

马尔可夫思考者

10月08日发表

10月09日由 Amirhossein Kazemnejad 提交

作者: Milad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy

摘要

AI 生成总结

Markovian 思维，在 Delethink 中实现，通过将思维长度与上下文大小解耦，实现了 LLM 中长链思维推理的高效可扩展强化学习，从而实现了线性计算和恒定内存使用。

强化学习（RL）最近已成为训练产生长思维链（LongCoT）的推理大型语言模型（LLM）的有力方法。然而，标准的RL“思考环境”将状态定义为提示加上所有先前的推理标记，这使得状态无界，并迫使基于注意力策略的模型在思维链加长时付出二次方的计算成本。我们重新审视了环境本身。我们提出了“马尔可夫思维”（Markovian Thinking）范式，在这种范式中，策略在条件化于一个固定大小的状态时推进推理，从而将思维长度与上下文大小解耦。其直接后果是实现了线性计算成本和恒定内存。我们通过Delethink这一RL环境来实现这一想法，Delethink将推理结构化为固定大小的块。在每个块内，模型正常思考；在边界处，环境重置上下文，并用简短的结转信息重新初始化提示。通过RL，策略学会了在每个块的末尾写入文本状态，以便在重置后无缝地继续推理。在该环境中训练的R1-Distill 1.5B模型以8K标记的块进行推理，但思维长度可达24K标记，其性能可与或超越在24K预算下训练的LongCoT-RL相媲美。通过测试时间缩放，Delethink在LongCoT停滞不前时仍能继续改进。线性计算的效益是巨大的：我们经验性地估计，在平均思维长度为96K时，LongCoT-RL需要27个H100月的计算量，而Delethink仅需7个。对RL初始化的分析表明，现成的推理模型（1.5B-120B）在各种基准测试中，零样本（zero-shot）时经常能采样到马尔可夫轨迹，这提供了有效的正样本，使得RL能够大规模地发挥作用。我们的结果表明，重新设计思考环境是一个强大的杠杆：它能够在没有二次方开销的情况下实现非常长的推理，并为构建高效、可扩展的推理LLM开辟了道路。

查看 arXiv 页面查看 PDF

Amirhossein Kazemnejad

论文作者

论文提交者

要点

RLVR 由一个大家都已遗忘的平凡 MDP 控制。实际上，我们可以设计任何我们想要的 MDP。
通过使状态空间有界，我们提出了马尔可夫思维范式，模型通过仅以固定大小的状态作为条件来学习推进其推理。
Delethink 简单有效：使用 8K 的固定状态，其表现可媲美甚至超越 LongCoT-RL，并且可以处理长达 128K 个 token 的思考。
GPT-OSS 120B 和 Qwen3 30B-A3B 已经表现出马尔可夫思维的强烈迹象。

马尔可夫思考者

摘要

评论