UFT:统一监督与强化微调

发表
Mingyang LiuMingyang Liu 提交
作者: Mingyang LiuMingyang Liu, Gabriele Farina, Asuman Ozdaglar

摘要

后训练已证明其在增强大型语言模型(LLM)推理能力方面的重要性。主要的后训练方法可分为监督微调(SFT)和强化微调(RFT)。SFT 效率高,适用于小型语言模型,但可能导致过拟合并限制大型模型的推理能力。相比之下,RFT 通常产生更好的泛化能力,但严重依赖于基础模型的实力。为解决 SFT 和 RFT 的局限性,我们提出了统一微调(UFT),这是一种新颖的后训练范式,将 SFT 和 RFT 统一到一个单一的集成过程中。UFT 使模型能够有效探索解决方案,同时融入有益的监督信号,弥合了现有方法中固有的记忆与思考之间的鸿沟。值得注意的是,UFT 总体上优于 SFT 和 RFT,无论模型大小如何。此外,我们从理论上证明,UFT 打破了 RFT 固有的指数级样本复杂度瓶颈,首次表明统一训练可以在长距离推理任务上指数级加速收敛。
查看 arXiv 页面查看 PDF

评论

Mingyang LiuMingyang Liu
论文作者
论文提交者

代码:https://github.com/liumy2010/UFT

Mingyang LiuMingyang Liu
论文作者
论文提交者

TL;DR:我们提出了一种新颖的微调算法 UFT,它统一了监督式和强化式微调,并且性能优于两者。我们还为 UFT 提供了理论证明。