Delta 激活:微调大型语言模型的表示

发表
Zhiqiu (Oscar) XuZhiqiu (Oscar) Xu 提交
作者: Zhiqiu (Oscar) XuZhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim

摘要

强大的开源大型语言模型(LLMs)的成功,使得社区能够创建大量针对特定任务和领域进行微调的模型。然而,由于元数据不一致和存储库结构混乱,导航和理解这些模型仍然充满挑战。我们提出了 Delta Activations,一种通过测量其内部激活相对于基准模型的变化来将微调模型表示为向量嵌入的方法。这种表示方式能够有效地按领域和任务进行聚类,揭示模型生态系统的结构。Delta Activations 还展现出令人满意的特性:它在不同的微调设置下都具有鲁棒性,并且在混合微调数据集时表现出可加性。此外,我们还表明 Delta Activations 可以通过少样本微调来嵌入任务,并进一步探索其在模型选择和合并方面的应用。我们希望 Delta Activations 能够促进对公开可用模型进行重用的实践。代码可在 https://github.com/OscarXZQ/delta_activations 获取。
查看 arXiv 页面查看 PDF

评论