⏶3
通过概念感知微调改进大型语言模型
发表
由
Michael Chen 提交
作者:
Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
摘要
大型语言模型(LLMs)已成为现代人工智能的基石。然而,现有的下一个词元预测范式从根本上限制了它们形成连贯、高层概念的能力,这成为实现类人理解和推理的关键障碍。以“核糖核酸”(ribonucleic acid)为例:LLM会首先将其分解为词元,即人造文本片段(“rib”、“on”等),然后顺序学习每个词元,而不是将整个短语作为一个统一、连贯的语义实体来理解。这种碎片化的表示阻碍了更深层次的概念理解,并最终阻碍了真正智能系统的发展。为此,我们引入了概念感知微调(Concept-Aware Fine-Tuning, CAFT),这是一种新颖的多词元训练方法,它重新定义了LLM的微调方式。通过支持跨多个词元的序列学习,该方法促进了更强的概念感知学习。我们的实验表明,与传统的下一个词元微调方法相比,在各种任务中都取得了显著的改进,包括文本摘要等传统应用和从头蛋白质设计等领域特定任务。多词元预测此前仅在极其昂贵的预训练阶段才能实现;据我们所知,CAFT是第一个将多词元设置引入到后训练阶段的方法,从而有效地将其益处普及给了更广泛的从业者和研究人员社区。最后,我们提出的方法出乎意料的有效性预示着对机器学习研究社区的更广泛影响。所有代码和数据均可在 https://github.com/michaelchen-lab/caft-llm 获取。
一直想尝试DeepSeek V3和Meta的多token预测方法?CAFT使其能够用于微调,通过改善概念理解来提升模型性能。