⏶21

GEPA：反思式提示演进可超越强化学习

07月25日发表

07月28日由 Lakshya A Agrawal 提交

作者: Lakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik Sen, Alexandros G. Dimakis, Ion Stoica, Dan Klein, Matei Zaharia, Omar Khattab

摘要

大型语言模型（LLM）正越来越多地通过强化学习（RL）方法（例如群组相对策略优化（GRPO））被应用于下游任务，这些方法通常需要数千次模拟（rollout）才能学习新任务。我们认为，与从稀疏的标量奖励中提取的策略梯度相比，语言的可解释性常常能为LLM提供更丰富的学习媒介。为了验证这一点，我们引入了GEPA（Genetic-Pareto），一种提示优化器，它彻底融入了自然语言反思，以从试错中学习高层规则。对于任何包含一个或多个LLM提示的AI系统，GEPA会采样系统级轨迹（例如，推理、工具调用和工具输出），并用自然语言对其进行反思，以诊断问题、提出并测试提示更新，并从其自身尝试的帕累托前沿中结合互补的经验教训。由于GEPA的设计，它通常可以将即使是少量的模拟转化为巨大的质量提升。在四项任务中，GEPA平均优于GRPO 10%，最高可达20%，同时使用的模拟次数减少了多达35倍。GEPA在两个LLM上还优于领先的提示优化器MIPROv2超过10%，并且在代码优化方面，作为一种推理时搜索策略也展示了有前景的结果。

查看 arXiv 页面查看 PDF

Lakshya A Agrawal

论文作者

论文提交者

大型语言模型（LLM）正越来越多地通过强化学习（RL）方法（如组相对策略优化（GRPO））适应下游任务，这些方法通常需要数千次模拟运行才能学习新任务。我们认为，与从稀疏标量奖励中导出的策略梯度相比，语言的可解释性通常可以为LLM提供更丰富的学习媒介。为了验证这一点，我们引入了GEPA（遗传-帕累托），一个充分融入自然语言自省的提示词优化器，旨在从试错中学习高阶规则。对于任何包含一个或多个LLM提示词的AI系统，GEPA会采样系统级别的轨迹（例如，推理、工具调用和工具输出），并用自然语言对它们进行反思，以诊断问题、提出并测试提示词更新，并从其自身尝试的帕累托前沿中结合互补的经验。由于GEPA的设计，它通常能将即使是少量的模拟运行转化为显著的质量提升。在四项任务中，GEPA的性能平均优于GRPO 10%，最高可达20%，同时使用的模拟运行次数减少了多达35倍。GEPA还在两个LLM上超越了领先的提示词优化器MIPROv2 10%以上，并在代码优化方面显示出作为推理时搜索策略的良好前景。

没有代码？:)

GEPA：反思式提示演进可超越强化学习

摘要

评论