⏶481
亚当法则:大语言模型上的文本频率法则
发表
由
lu 提交
作者:
Hongyuan Adam Lu, Z. L., Victor Wei, Zefan Zhang, Zhao Hong, Qiqi Xiang, Bowen Cao, Wai Lam
摘要
AI 生成总结
一种通过文本频率分析提高大语言模型性能的新型框架,包括规律发现、蒸馏和课程训练方法。虽然文本频率在阅读速度方面已被证实与人类认知相关,但其与大语言模型(LLM)的相关性却鲜有研究。据我们所知,我们提出了一种关于文本数据频率的新研究方向,这是一个目前被低估的课题。我们的框架由三个单元组成。首先,本文提出了文本频率定律(TFL),指出在提示(prompting)和微调中都应优先为 LLM 提供高频文本数据。由于许多 LLM 的训练数据是不开源的,我们建议使用在线资源来估计句子级别的频率。然后,我们利用输入释义器将输入改写为更频繁的文本表达。接着,我们提出了文本频率蒸馏(TFD),通过查询 LLM 进一步扩展数据集中的句子来完成故事,生成的语料库用于调整初始估计。最后,我们提出了课程文本频率训练(CTFT),按照句子级别频率递增的顺序微调 LLM。我们在策划的文本频率配对数据集(TFPD)上针对数学推理、机器翻译、常识推理和智能体工具调用进行了实验。结果证明了我们框架的有效性。
评论
亚当法则:大语言模型中的文本频率定律
本文识别并形式化了“文本频率定律”(TFL):大语言模型在处理提示词(Prompt)和进行微调时,系统性地偏好其训练语料库中频繁出现的文本数据。即使语义完全相同,生僻或不寻常的措辞也会降低模型表现。作者提出了三种实用干预措施——输入改写器、文本频率蒸馏(TFD)和课程文本频率训练(CTFT),利用该定律来提升 LLM 的性能。
核心思想
文本频率定律指出,LLM 在以频繁、常见的模式表达的文本上表现更好,而在以生僻或不寻常方式表达的语义等价文本上表现较差。这种对频率的偏好通过训练数据分布植入模型中,并影响推理(模型理解提示词的效果)和学习(模型在微调期间吸收新信息的效率)。

方法/路径
论文提出了三种利用文本频率定律的技术。首先是输入改写器,在将用户输入喂给 LLM 之前,将其改写为出现频率更高的表达方式,从而在不改变模型的情况下提高理解力。其次是文本频率蒸馏 (TFD),将训练数据转换为更高频的表达,使微调更具样本效率。第三是课程文本频率训练 (CTFT),按照从低频到高频的顺序排列微调数据,让模型先从较难的生僻示例中学习,再用常见模式进行巩固。


结果
所有三种提议的方法在基准测试中均取得了一致的提升。输入改写器在推理时提供了零成本的增益,而 TFD 和 CTFT 改善了微调结果。基于课程的排序(先低频后高频)被证明特别有效,表明早期接触稀有模式后接常见模式的强化可以创造更稳健的学习轨迹。
酷