在大型语言模型中利用自注意力实现输入依赖的软提示

发表
Abhilash NandyAbhilash Nandy 提交
作者: Ananth MuppidiAnanth Muppidi, Abhilash NandyAbhilash Nandy, Sambaran BandyopadhyaySambaran Bandyopadhyay

摘要

大型语言模型在领域特定任务上的表现,需要进行微调,但这在计算上是昂贵且技术上具有挑战性的。本文着重于使用软提示(soft prompting)进行参数高效微调,这是一种很有前景的方法,它通过学习一小组参数来使预训练模型适应下游任务。我们提出了一种新颖的、带有自注意力机制的输入依赖软提示技术(Input Dependent Soft Prompting with a self-Attention Mechanism, ID-SPAM),该技术根据输入标记生成软提示,并以不同的重要性关注不同的标记。我们的方法简单高效,同时保持了可训练参数数量的少量。我们展示了所提出的方法在各种任务上与最先进技术相比的优点,并显示了其改进的零样本领域迁移能力。
查看 arXiv 页面查看 PDF

评论

Abhilash NandyAbhilash Nandy
论文作者
论文提交者

🎯 ID-SPAM(Input-Dependent Soft Prompting technique with a self-Attention Mechanism,即基于输入的自注意力软提示技术)来了!📚

🧠 利用自注意力机制,通过输入感知的软提示高效适应LLM

⚡ 最少参数,最大适应性——告别繁重的微调!

🌍 在多样化任务中实现卓越的零样本领域迁移能力

🚀 已被ACL 2025(主)会议接收

🔍 ID-SPAM 通过关注具有不同重要性的输入token,学习生成更智能的提示,超越了最先进的参数高效微调方法。紧凑、可扩展,并已为真实世界领域做好准备!

Screenshot_2025-06-09-08-35-26-708_com.android.chrome-edit.jpg