拖放式LLM:零样本提示到权重

发表
Kai WangKai Wang 提交
作者: Zhiyuan LiangZhiyuan Liang, Dongwen Tang, Yuhao Zhou, Xuanlei ZhaoXuanlei Zhao, Mingjia ShiMingjia Shi, Wangbo Zhao, Zekai Li, Peihao Wang, Konstantin Schürholt, Damian Borth, Michael M. Bronstein, Yang You, Zhangyang Wang, Kai WangKai Wang

摘要

现代参数高效微调(PEFT)方法,如低秩适应(LoRA),降低了定制大型语言模型(LLMs)的成本,但仍然需要为每个下游数据集单独运行优化。我们引入了“拖放式LLM”(Drag-and-Drop LLMs, \textit{DnD}),这是一种提示词条件参数生成器,通过将少量未标注的任务提示词直接映射到LoRA权重更新,从而消除了按任务训练的需求。一个轻量级文本编码器将每个提示词批次提炼成条件嵌入,然后由级联超卷积解码器将其转换为整套LoRA矩阵。一旦在多样化的提示词-检查点对集合上训练完成,DnD就能在几秒钟内生成特定任务的参数,从而实现:i) 开销比完全微调低至12,000倍;ii) 在未经训练的常识推理、数学、编码和多模态基准测试中,性能比最强的训练LoRA平均提升高达30%;以及iii) 尽管从未见过目标数据或标签,但仍具有鲁棒的跨领域泛化能力。我们的结果表明,提示词条件参数生成是基于梯度适应的一种可行替代方案,可用于快速专业化LLMs。我们的项目可在 https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD} 上获取。
查看 arXiv 页面查看 PDF

评论

Kai WangKai Wang
论文作者
论文提交者

现代参数高效微调(PEFT)方法(例如低秩适应(LoRA))降低了定制大型语言模型(LLM)的成本,但对于每个下游数据集仍需要单独的优化运行。我们引入了拖放式大型语言模型(DnD),这是一种提示条件参数生成器,通过将少量未标记的任务提示直接映射到LoRA权重更新来消除按任务训练的需求。一个轻量级文本编码器将每个提示批次提炼成条件嵌入,然后由级联超卷积解码器将其转换为完整的LoRA矩阵集。DnD在多样化的提示-检查点对集合中训练后,可以在几秒钟内生成特定于任务的参数,从而实现:i)比完全微调低至12,000倍的开销,ii)在未见的常识推理、数学、编程和多模态基准测试中,性能比最强的训练LoRA平均提升高达30%,以及 iii)尽管从未见过目标数据或标签,仍能实现强大的跨领域泛化。我们的结果表明,提示条件参数生成是快速专门化LLM的梯度 기반适应的一种可行替代方案。我们的项目可在 https://jerryliang24.github.io/DnD 查阅。

PengPeng

我不明白为什么性能会比LoRA更好,因为“DnD”模型也是从多个LoRA训练而来的。

Zhiyuan LiangZhiyuan Liang
论文作者

感谢您阅读我们的论文!DnD 并非真正学习如何构建一个与训练数据中LoRA适配器高度相似的适配器,而是设法在输入数据和训练参数之间建立连接。训练数据中的提示-检查点对为其提供了关于这种映射的全面知识。因此,DnD 能够在给定提示作为灵感的情况下,为零样本测试集生成参数,其性能优于在训练中未遇到零样本测试集的训练LoRA。

RosswillRosswill

嗯,这挺有趣的

Zhiyuan LiangZhiyuan Liang
论文作者

感谢您批准我们的工作!

YangXiuyuYangXiuyu

去哪里找这么多用户来点赞?好奇中...

Zhiyuan LiangZhiyuan Liang
论文作者

也许很多人都喜欢在几秒钟内定制大型语言模型(LLM)的想法?

YangXiuyuYangXiuyu

不这么认为...

Zhiyuan LiangZhiyuan Liang
论文作者

感谢您推广我们的论文!

abab

本质上,您正在训练另一个模型,以根据少量提示预测一个新的 LoRA。超卷积解码器的训练可以被视为一种 SFT 方法吗?

Zhiyuan LiangZhiyuan Liang
论文作者

这可能确实是一种SFT(监督微调)方式:给定一个提示,给定“真实”权重并进行学习。我们计划未来探索一种类似RL(强化学习)的方式:告诉生成器什么是“好”权重,什么是“坏”权重,以挖掘参数生成的进一步潜力,敬请期待!

NicolasNicolas

我去,好吧。人工智能这玩意儿,用不了多久就可能厉害得吓人了。

abab
此评论已隐藏。
Vadim KataevVadim Kataev

模型基于提示生成其他模型的日子即将到来:

提示:“生成一个尺寸为N、用于在移动设备上快速推理的多语言文本生成模型,领域:智能移动助手”

输出:新模型

:)

感谢你们所做的有趣工作!

Zhiyuan LiangZhiyuan Liang
论文作者

感谢您宝贵的见解!实际上,那是一个非常有趣的假设,需要进行广泛的探索和贡献。我们对这个想法非常感兴趣,并希望将来能实现它!

Jaekyung ChoJaekyung Cho

有趣的想法和出色的工作👍!! 顺便问一下,我有个问题。

为什么基础模型的性能优于LoRA训练?

Zhiyuan LiangZhiyuan Liang
论文作者

因为 LoRA 的训练未见测试数据,所以测试过程完全是零样本的。在其他数据集上训练可能导致模型在训练集上过拟合,从而降低其零样本性能,使其低于基础模型。我们在第 3.4 节和 3.5 节中进行了详细讨论,希望这能更好地说明问题。