LongWriter-Zero:通过强化学习掌握超长文本生成

发表
wuyuhaowuyuhao 提交
作者: Yuhao Wu, Yushi BaiYushi Bai, Zhiqiang HuZhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

摘要

大语言模型(LLM)的超长文本生成是一个广泛需求的情景,但由于其最大生成长度限制以及随着序列长度增加而出现的整体质量下降,这仍然是一个重大挑战。以往的方法,例如LongWriter,通常依赖于“教学”,即对合成的长篇输出进行监督微调(SFT)。然而,这种策略严重依赖合成SFT数据,这些数据构建困难且成本高昂,通常缺乏连贯性和一致性,并且往往过于人工化和结构单调。在这项工作中,我们提出了一种基于激励的方法,该方法完全从零开始,不依赖任何标注或合成数据,利用强化学习(RL)来促进LLM中超长、高质量文本生成能力的出现。我们从一个基础模型(类似于R1-Zero)开始进行RL训练,引导其进行推理,从而在写作过程中促进规划和优化。为支持这一点,我们采用了专门的奖励模型来引导LLM改进长度控制、写作质量和结构格式。实验评估表明,我们的LongWriter-Zero模型(由Qwen2.5-32B训练而来)在长篇写作任务上持续优于传统SFT方法,在WritingBench和Arena-Write的所有指标上均取得了最先进的结果,甚至超越了DeepSeek R1和Qwen3-235B等千亿级以上模型。我们已将数据和模型检查点开源于https://huggingface.co/THU-KEG/LongWriter-Zero-32B
查看 arXiv 页面查看 PDF

评论

wuyuhaowuyuhao
论文提交者

模型与数据: https://huggingface.co/THU-KEG/LongWriter-Zero-32B

MiyanoMiyano

依我来看,这是近期大学在大型语言模型方面最出色的开源项目之一!:)