⏶11
及时行事事半功倍:语言模型的积极自我完善
发表
由
Jinyi Han 提交

作者:
Jinyi Han, Xinyi Wang, Haiquan Zhao, Tingyun li, Zishang Jiang, Sihang Jiang, Jiaqing Liang, Xin Lin, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao

摘要
自我完善的最新进展已通过迭代完善展示了改进大型语言模型 (LLMs) 输出的巨大潜力。然而,大多数现有的自我完善方法依赖于具有固定迭代次数的被动过程,使得根据不断变化的生成上下文确定最佳的完善时机和内容变得困难。受到人类在执行过程中动态完善思想的启发,我们提出了 ProActive Self-Refinement (PASR) 方法,这是一种新颖的方法,可以使 LLMs 在生成过程中完善其输出。与重新生成整个响应的方法不同,PASR 基于模型的内部状态和不断变化的上下文,主动决定是否、何时以及如何进行完善。我们在一系列 10 个多样化任务上进行了广泛的实验来评估 PASR 的有效性。实验结果表明,PASR 显著提高了解决问题的性能。特别是,在 Qwen3-8B 模型上,PASR 与标准生成相比,平均 token 消耗减少了 41.6%,同时准确率也提高了 8.2%。我们的代码和论文中使用的所有基线均可在 GitHub 上找到。
评论

论文作者
论文提交者