⏶268
弱驱动学习:弱智能体如何让强智能体变得更强
发表
由
Yikun Ban 提交
作者:
Zehao Chen,
Gongxun Li, Tianxiang Ai, Yifei Li,
Zixuan Huang, Wang Zhou, Fuzhen Zhuang, Xianglong Liu, Jianxin Li, Deqing Wang,
Yikun Ban
摘要
AI 生成总结
WMSS 是一种后训练范式,利用弱模型检查点来识别并填补学习空白,使大语言模型能够在常规饱和点之外继续改进。随着后训练优化成为改进大语言模型的核心,我们观察到一个持久的饱和瓶颈:一旦模型变得高度自信,进一步的训练收益就会递减。虽然现有方法继续强化目标预测,但我们发现模型自身的历史弱状态中仍潜藏着信息丰富的监督信号。受此启发,我们提出了 WMSS (弱智能体可以让强智能体更强),这是一种利用弱检查点来引导持续优化的后训练范式。通过熵动力学识别可恢复的学习差距,并通过补偿性学习对其进行强化,WMSS 使强智能体能够超越传统的后训练饱和进行改进。在数学推理和代码生成数据集上的实验表明,使用我们的方法训练的智能体实现了有效的性能提升,同时不产生额外的推理成本。

弱驱动学习(Weak-Driven Learning)是指一类后训练范式,其中强大模型的改进是由其预测与较弱参考模型(例如历史检查点)预测之间的系统性差异驱动的,而不是通过模仿更强大的导师模型。