⏶68
利用元学习进行系统提示优化
发表
由
Jinheon Baek 提交
作者:
Yumin Choi,
Jinheon Baek, Sung Ju Hwang
摘要
大型语言模型 (LLM) 已展现出卓越的能力,其中优化其输入提示 (prompts) 在最大化其性能方面起着关键作用。然而,虽然 LLM 提示包括任务无关的系统提示 (system prompts) 和任务特定的用户提示 (user prompts),但现有的提示优化工作主要关注针对单个查询或任务的用户提示,而很大程度上忽略了系统提示,一旦优化,系统提示可以应用于不同的任务和领域。受此启发,我们引入了双层系统提示优化 (bilevel system prompt optimization) 这一新颖问题,其目标是设计对不同用户提示具有鲁棒性并可迁移到未见任务的系统提示。为了解决这个问题,我们随后提出了一种元学习 (meta-learning) 框架,该框架通过在多个数据集上针对各种用户提示优化系统提示来对其进行元学习,同时以迭代方式更新用户提示,以确保两者之间的协同作用 (synergy)。我们在跨越 5 个不同领域的 14 个未见数据集上进行了实验,在这些实验中,我们表明我们的方法生成的系统提示能够有效地泛化到不同的用户提示。此外,我们的发现表明,优化后的系统提示能够即使对未见任务也实现快速适应,对测试时用户提示所需优化步骤更少,同时实现性能提升。
我们着手解决优化系统提示这一新问题,其灵感来自于系统提示在塑造 LLM 跨多任务和领域行为方面的关键作用,然而,与用户提示相比,系统提示受到的关注很少。此外,我们利用元学习框架解决这个问题,该框架学习跨任务和领域通用的、可迁移的系统提示。Github: https://github.com/Dozi01/MetaSPO