⏶3
UFT:统一监督与强化微调
发表
由
Mingyang Liu 提交
作者:
Mingyang Liu, Gabriele Farina, Asuman Ozdaglar
摘要
后训练已证明其在增强大型语言模型(LLM)推理能力方面的重要性。主要的后训练方法可分为监督微调(SFT)和强化微调(RFT)。SFT 效率高,适用于小型语言模型,但可能导致过拟合并限制大型模型的推理能力。相比之下,RFT 通常产生更好的泛化能力,但严重依赖于基础模型的实力。为解决 SFT 和 RFT 的局限性,我们提出了统一微调(UFT),这是一种新颖的后训练范式,将 SFT 和 RFT 统一到一个单一的集成过程中。UFT 使模型能够有效探索解决方案,同时融入有益的监督信号,弥合了现有方法中固有的记忆与思考之间的鸿沟。值得注意的是,UFT 总体上优于 SFT 和 RFT,无论模型大小如何。此外,我们从理论上证明,UFT 打破了 RFT 固有的指数级样本复杂度瓶颈,首次表明统一训练可以在长距离推理任务上指数级加速收敛。
代码:https://github.com/liumy2010/UFT