⏶27
SuperWriter:基于反思的大型语言模型长篇内容生成
发表
由
Yushi Bai 提交
作者: Yuhao Wu,
Yushi Bai,
Zhiqiang Hu, Juanzi Li,
Roy Ka-Wei Lee

摘要
长篇文本生成对于大型语言模型(LLM)而言仍然是一个重大挑战,尤其是在序列长度增加时如何保持连贯性、确保逻辑一致性以及文本质量。为了解决这些局限性,我们提出了 SuperWriter-Agent,这是一个基于智能体的框架,旨在提高长篇文本生成的质量和一致性。SuperWriter-Agent 在生成流程中引入了明确的结构化思考——通过规划和细化阶段,引导模型遵循一种更深思熟虑、更具认知基础的过程,类似于专业作家。基于此框架,我们构建了一个有监督微调数据集,用于训练一个 7B 的 SuperWriter-LM。我们进一步开发了一种分层直接偏好优化(DPO)程序,该程序使用蒙特卡洛树搜索(MCTS)来传播最终质量评估并相应地优化每个生成步骤。在各种基准测试中的实证结果表明,SuperWriter-LM 实现了最先进的性能,在自动评估和人工评估方面均超越了甚至更大规模的基线模型。此外,全面的消融研究证明了分层 DPO 的有效性,并强调了纳入结构化思考步骤对于提高长篇文本生成质量的价值。
代码与模型:https://github.com/mozhu621/SuperWriter