⏶2
BOW:瓶颈式后续词探索
发表
由
Zhikun Xu 提交

作者: Ming Shen,
Zhikun Xu, Xiao Ye, Jacob Dineen, Ben Zhou

摘要
大型语言模型(LLM)通常通过下一词预测(NWP)进行训练,这种训练方式能提供强大的表面流畅性,但往往缺乏对鲁棒推理的支持。我们提出了一种名为“瓶颈化下一词探索”(BOttlenecked next Word exploration, BOW)的新型强化学习(RL)框架,它通过引入一个推理瓶颈来重新思考NWP:策略模型首先生成一个推理路径,而不是直接预测下一个token,之后一个冻结的判别模型仅基于此推理路径预测下一个token的分布。我们使用GRPO训练策略模型,奖励量化了推理路径促进下一词恢复的有效性。与其他持续预训练基线相比,我们表明BOW在各种基准测试中都能提高基础模型的通用推理能力和下一词推理能力。我们的研究结果表明,BOW可以作为传统NWP的一种有效且可扩展的替代方案。
评论

论文作者
论文提交者