⏶34

在大型语言模型中利用自注意力实现输入依赖的软提示

06月05日发表

06月09日由 Abhilash Nandy 提交

作者: Ananth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay

摘要

大型语言模型在领域特定任务上的表现，需要进行微调，但这在计算上是昂贵且技术上具有挑战性的。本文着重于使用软提示（soft prompting）进行参数高效微调，这是一种很有前景的方法，它通过学习一小组参数来使预训练模型适应下游任务。我们提出了一种新颖的、带有自注意力机制的输入依赖软提示技术（Input Dependent Soft Prompting with a self-Attention Mechanism, ID-SPAM），该技术根据输入标记生成软提示，并以不同的重要性关注不同的标记。我们的方法简单高效，同时保持了可训练参数数量的少量。我们展示了所提出的方法在各种任务上与最先进技术相比的优点，并显示了其改进的零样本领域迁移能力。

查看 arXiv 页面查看 PDF

Abhilash Nandy

论文作者

论文提交者

🎯 ID-SPAM（Input-Dependent Soft Prompting technique with a self-Attention Mechanism，即基于输入的自注意力软提示技术）来了！📚

🧠 利用自注意力机制，通过输入感知的软提示高效适应LLM

⚡ 最少参数，最大适应性——告别繁重的微调！

🌍 在多样化任务中实现卓越的零样本领域迁移能力

🚀 已被ACL 2025（主）会议接收

🔍 ID-SPAM 通过关注具有不同重要性的输入token，学习生成更智能的提示，超越了最先进的参数高效微调方法。紧凑、可扩展，并已为真实世界领域做好准备！

Screenshot_2025-06-09-08-35-26-708_com.android.chrome-edit.jpg

在大型语言模型中利用自注意力实现输入依赖的软提示

摘要

评论