⏶7
通过推理时技术激发微调Transformer的能力
发表
由
Asankhaya Sharma 提交

作者:
Asankhaya Sharma

摘要
大型语言模型已经改变了自然语言处理,但监督微调(SFT)仍然计算密集。本文正式证明,在理想化假设下(包括无限制的计算资源和对微调数据集的访问),SFT获得的能力可以通过基础Transformer模型使用推理时技术(特别是上下文学习(ICL))在不改变模型参数的情况下进行近似。我们将这些结果扩展到具有有限上下文长度和部分数据集访问的实际场景。对于固定输出长度为l的文本生成任务,大小为 Oleft( m V{varepsilon^2} log m{delta} right) 或在有界上下文下大小为 Oleft( l log V{varepsilon^2} log 1{delta} right) 的数据集足以在m个上下文中近似微调行为,误差为 varepsilon,其中 V 是词汇量大小,delta 是失败概率。对于线性分类,大小为 Oleft( d{varepsilon} right) 或在固定上下文下大小为 Oleft( 1{varepsilon^2} log 1{delta} right) 的数据集是足够的,其中d是输入维度。基于Transformer的图灵完备性,这些结果为大型语言模型的资源高效部署提供了理论基础,而像检索增强生成等实用技术则将理论与实际应用联系起来。
这篇论文首次提供了正式证明,表明基础Transformer模型仅使用推理时技术(如上下文学习(ICL))即可近似实现微调后的能力——无需更新参数! 🎯
主要理论贡献:
证明 ICL 可以在可量化的误差范围内匹配 SFT 性能
推导出最小数据集要求:文本生成为 O(mV/ε²),分类为 O(d/ε)
基于Transformer图灵完备性
现实世界联系: 将理论与团队已在使用的RAG和少样本提示等实用技术相结合。
尽管这些假设是理想化的(无限计算,完整数据集访问),但有界上下文结果(定理4-5)为具有有限上下文窗口的现代LLM提供了可操作的指导。