无需训练的分组相对策略优化

发表
taesiritaesiri 提交
作者: Yuzheng CaiYuzheng Cai, Siqi Cai, Yuchen Shi, Zihan Xu, Lichao Chen, Yulei QinYulei Qin, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Yong Mao, Ke Li, XING SUNXing Sun

摘要

AI 生成总结
Training-Free GRPO 通过将经验知识学习为 token 先验而无需参数更新,提高了 LLM 智能体在专业领域的性能,并用最少的数据改进了域外任务。
大型语言模型 (LLM) 智能体最近的进展已经证明了它们强大的通用能力。然而,由于在**有效集成外部工具和特定提示策略**方面的挑战,它们在**专业化现实世界领域**的性能通常会下降。尽管已提出诸如**智能体强化学习**之类的方法来解决这个问题,但它们通常依赖于**昂贵的参数更新**,例如,通过一个使用**监督微调 (SFT)** 然后进行**强化学习 (RL) 阶段**(带有**群体相对策略优化 (GRPO)**)来改变输出分布的过程。然而,我们认为 LLM 可以通过学习**经验知识作为令牌先验**来达到对输出分布的类似效果,这是一种**更为轻量级的方法**,不仅解决了实际数据稀缺的问题,还**避免了常见的过拟合问题**。为此,我们提出了**无训练群体相对策略优化 (Training-Free GRPO)**,这是一种**经济高效的解决方案**,可以在**不进行任何参数更新**的情况下提高 LLM 智能体的性能。我们的方法利用**群体相对语义优势**而不是每个群体回滚内的数值优势,在**少量基础数据**上进行多周期学习时,**迭代地提炼高质量的经验知识**。这种知识充当了学习到的**令牌先验**,在 LLM API 调用期间无缝集成以指导模型行为。在数学推理和网络搜索任务上的实验表明,当应用于 DeepSeek-V3.1-Terminus 时,Training-Free GRPO 显著**提高了领域外性能**。仅用几十个训练样本,Training-Free GRPO 在**少量训练数据和成本**下就优于经过微调的小型 LLM。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

提出无需训练的 GRPO,通过在有限数据、多轮学习中将经验知识提炼为令牌先验,从而提升 LLM 代理的性能,而无需参数更新。