⏶34
在大型语言模型中利用自注意力实现输入依赖的软提示
发表
由
Abhilash Nandy 提交
作者:
Ananth Muppidi,
Abhilash Nandy,
Sambaran Bandyopadhyay
摘要
大型语言模型在领域特定任务上的表现,需要进行微调,但这在计算上是昂贵且技术上具有挑战性的。本文着重于使用软提示(soft prompting)进行参数高效微调,这是一种很有前景的方法,它通过学习一小组参数来使预训练模型适应下游任务。我们提出了一种新颖的、带有自注意力机制的输入依赖软提示技术(Input Dependent Soft Prompting with a self-Attention Mechanism, ID-SPAM),该技术根据输入标记生成软提示,并以不同的重要性关注不同的标记。我们的方法简单高效,同时保持了可训练参数数量的少量。我们展示了所提出的方法在各种任务上与最先进技术相比的优点,并显示了其改进的零样本领域迁移能力。
🎯 ID-SPAM(Input-Dependent Soft Prompting technique with a self-Attention Mechanism,即基于输入的自注意力软提示技术)来了!📚
🧠 利用自注意力机制,通过输入感知的软提示高效适应LLM
⚡ 最少参数,最大适应性——告别繁重的微调!
🌍 在多样化任务中实现卓越的零样本领域迁移能力
🚀 已被ACL 2025(主)会议接收
🔍 ID-SPAM 通过关注具有不同重要性的输入token,学习生成更智能的提示,超越了最先进的参数高效微调方法。紧凑、可扩展,并已为真实世界领域做好准备!