AMFT:通过元学习最优的模仿-探索平衡来对齐 LLM 推理器

发表
Jie FengJie Feng 提交
作者: Lixuan He, Jie FengJie Feng, Yong Li

摘要

大型语言模型(LLMs)通常通过两阶段流水线进行推理任务的微调,即监督微调(SFT)后接强化学习(RL),这个过程充满了灾难性遗忘以及模仿与探索之间的次优权衡。最近的单阶段方法试图使用启发式方法统一SFT和RL,但缺乏动态平衡这两种范式的原则性机制。在本文中,我们通过隐式奖励的理论视角重新审视这一挑战,将SFT和RL视为互补的奖励信号而非独立的方法。我们引入了自适应元微调(AMFT),这是一种新颖的单阶段算法,它学习SFT的隐式路径级奖励与RL的显式基于结果奖励之间的最佳平衡。AMFT的核心是一个元梯度自适应权重控制器,它将SFT-RL平衡视为一个可学习参数,动态优化它以最大化长期任务性能。这种前瞻性方法,通过策略熵进行正则化以确保稳定性,自主发现了一种有效的训练课程。我们在涵盖数学推理、抽象视觉推理(通用点)和视觉语言导航(V-IRL)的挑战性基准上进行了全面评估。AMFT始终建立新的最先进水平,并在分布外(OOD)任务上展示了卓越的泛化能力。消融研究和训练动态分析证实,元学习控制器对于AMFT的稳定性、样本效率和性能至关重要,为LLM对齐提供了更具原则性和有效性的范式。我们的代码已通过https://github.com/hlxtsyj/AMFT开源。
查看 arXiv 页面查看 PDF
AMFT:通过元学习最优的模仿-探索平衡来对齐 LLM 推理器
AMFT:通过元学习最优的模仿-探索平衡来对齐 LLM 推理器

评论

Jie FengJie Feng
论文作者
论文提交者

AMFT 是一种单阶段微调方法,它使用元梯度来动态平衡监督学习和强化学习,从而提高推理性能和泛化到分布外数据的能力。