⏶42
无需训练的分组相对策略优化
发表
由
taesiri 提交

作者:
Yuzheng Cai, Siqi Cai, Yuchen Shi, Zihan Xu, Lichao Chen,
Yulei Qin, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Yong Mao, Ke Li,
Xing Sun

摘要
AI 生成总结
Training-Free GRPO 通过将经验知识学习为 token 先验而无需参数更新,提高了 LLM 智能体在专业领域的性能,并用最少的数据改进了域外任务。大型语言模型 (LLM) 智能体最近的进展已经证明了它们强大的通用能力。然而,由于在**有效集成外部工具和特定提示策略**方面的挑战,它们在**专业化现实世界领域**的性能通常会下降。尽管已提出诸如**智能体强化学习**之类的方法来解决这个问题,但它们通常依赖于**昂贵的参数更新**,例如,通过一个使用**监督微调 (SFT)** 然后进行**强化学习 (RL) 阶段**(带有**群体相对策略优化 (GRPO)**)来改变输出分布的过程。然而,我们认为 LLM 可以通过学习**经验知识作为令牌先验**来达到对输出分布的类似效果,这是一种**更为轻量级的方法**,不仅解决了实际数据稀缺的问题,还**避免了常见的过拟合问题**。为此,我们提出了**无训练群体相对策略优化 (Training-Free GRPO)**,这是一种**经济高效的解决方案**,可以在**不进行任何参数更新**的情况下提高 LLM 智能体的性能。我们的方法利用**群体相对语义优势**而不是每个群体回滚内的数值优势,在**少量基础数据**上进行多周期学习时,**迭代地提炼高质量的经验知识**。这种知识充当了学习到的**令牌先验**,在 LLM API 调用期间无缝集成以指导模型行为。在数学推理和网络搜索任务上的实验表明,当应用于 DeepSeek-V3.1-Terminus 时,Training-Free GRPO 显著**提高了领域外性能**。仅用几十个训练样本,Training-Free GRPO 在**少量训练数据和成本**下就优于经过微调的小型 LLM。
提出无需训练的 GRPO,通过在有限数据、多轮学习中将经验知识提炼为令牌先验,从而提升 LLM 代理的性能,而无需参数更新。