⏶21
GEPA:反思式提示演进可超越强化学习
发表
由
Lakshya A Agrawal 提交
作者:
Lakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik Sen, Alexandros G. Dimakis, Ion Stoica, Dan Klein, Matei Zaharia, Omar Khattab
摘要
大型语言模型(LLM)正越来越多地通过强化学习(RL)方法(例如群组相对策略优化(GRPO))被应用于下游任务,这些方法通常需要数千次模拟(rollout)才能学习新任务。我们认为,与从稀疏的标量奖励中提取的策略梯度相比,语言的可解释性常常能为LLM提供更丰富的学习媒介。为了验证这一点,我们引入了GEPA(Genetic-Pareto),一种提示优化器,它彻底融入了自然语言反思,以从试错中学习高层规则。对于任何包含一个或多个LLM提示的AI系统,GEPA会采样系统级轨迹(例如,推理、工具调用和工具输出),并用自然语言对其进行反思,以诊断问题、提出并测试提示更新,并从其自身尝试的帕累托前沿中结合互补的经验教训。由于GEPA的设计,它通常可以将即使是少量的模拟转化为巨大的质量提升。在四项任务中,GEPA平均优于GRPO 10%,最高可达20%,同时使用的模拟次数减少了多达35倍。GEPA在两个LLM上还优于领先的提示优化器MIPROv2超过10%,并且在代码优化方面,作为一种推理时搜索策略也展示了有前景的结果。

大型语言模型(LLM)正越来越多地通过强化学习(RL)方法(如组相对策略优化(GRPO))适应下游任务,这些方法通常需要数千次模拟运行才能学习新任务。我们认为,与从稀疏标量奖励中导出的策略梯度相比,语言的可解释性通常可以为LLM提供更丰富的学习媒介。为了验证这一点,我们引入了GEPA(遗传-帕累托),一个充分融入自然语言自省的提示词优化器,旨在从试错中学习高阶规则。对于任何包含一个或多个LLM提示词的AI系统,GEPA会采样系统级别的轨迹(例如,推理、工具调用和工具输出),并用自然语言对它们进行反思,以诊断问题、提出并测试提示词更新,并从其自身尝试的帕累托前沿中结合互补的经验。由于GEPA的设计,它通常能将即使是少量的模拟运行转化为显著的质量提升。在四项任务中,GEPA的性能平均优于GRPO 10%,最高可达20%,同时使用的模拟运行次数减少了多达35倍。GEPA还在两个LLM上超越了领先的提示词优化器MIPROv2 10%以上,并在代码优化方面显示出作为推理时搜索策略的良好前景。