⏶3

UFT：统一监督与强化微调

05月22日发表

05月27日由 Mingyang Liu 提交

作者: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar

摘要

后训练已证明其在增强大型语言模型（LLM）推理能力方面的重要性。主要的后训练方法可分为监督微调（SFT）和强化微调（RFT）。SFT 效率高，适用于小型语言模型，但可能导致过拟合并限制大型模型的推理能力。相比之下，RFT 通常产生更好的泛化能力，但严重依赖于基础模型的实力。为解决 SFT 和 RFT 的局限性，我们提出了统一微调（UFT），这是一种新颖的后训练范式，将 SFT 和 RFT 统一到一个单一的集成过程中。UFT 使模型能够有效探索解决方案，同时融入有益的监督信号，弥合了现有方法中固有的记忆与思考之间的鸿沟。值得注意的是，UFT 总体上优于 SFT 和 RFT，无论模型大小如何。此外，我们从理论上证明，UFT 打破了 RFT 固有的指数级样本复杂度瓶颈，首次表明统一训练可以在长距离推理任务上指数级加速收敛。

查看 arXiv 页面查看 PDF

Mingyang Liu

论文作者

论文提交者

代码：https://github.com/liumy2010/UFT

Mingyang Liu

论文作者

论文提交者

TL;DR：我们提出了一种新颖的微调算法 UFT，它统一了监督式和强化式微调，并且性能优于两者。我们还为 UFT 提供了理论证明。

UFT：统一监督与强化微调

摘要

评论