⏶6
Transformer Copilot:在LLM微调中从错误日志中学习
发表
由
Ling Yang 提交
作者:
Jiaru Zou, Yikun Ban, Zihao Li, Yunzhe Qi, Ruizhong Qiu, Ling Yang, Jingrui He
摘要
大型语言模型通常通过在特定领域数据上进行有监督微调来适应下游任务。虽然标准微调侧重于最小化生成损失以优化模型参数,但我们更进一步,保留并利用模型自身的学习信号,类似于人类学习者通过反思过去的错误来改进未来的表现。我们首先引入“错误日志”的概念,系统地跟踪模型在微调过程中的学习行为和反复出现的错误。我们将原始的基于 Transformer 的模型视为“Pilot”,并相应设计一个“Copilot”模型,通过对数(logits)修正来改进 Pilot 的推理性能。我们将整体的 Pilot-Copilot 框架命名为 Transformer Copilot,它引入了 (i) 新颖的 Copilot 模型设计,(ii) 一种联合训练范式,其中 Copilot 与 Pilot 一同从不断演进的错误日志中持续学习,以及 (iii) 一种融合推理范式,其中 Copilot 修正 Pilot 的对数以增强生成。我们对这种新的学习框架提供了理论和实证分析。在涵盖常识、算术和推荐任务的 12 个基准测试上的实验表明,Transformer Copilot 持续改进性能,提升幅度高达 34.5%,同时对 Pilot 模型引入的计算开销微不足道,并表现出强大的可扩展性和可迁移性。
代码将在以下链接发布:https://github.com/jiaruzouu/TransformerCopilot