ARIA:通过意图驱动奖励聚合训练语言智能体

发表
Ruihan YangRuihan Yang 提交
作者: Ruihan YangRuihan Yang, Yikai Zhang, Ellie ChenAili Chen, Xintao WangXintao Wang, Siyu Yuan, Jiangjie Chen, Deqing Yang, Yanghua Xiao

摘要

大型语言模型(LLMs)已使智能体能够通过自由形式的语言交互执行复杂的推理和决策。然而,在开放式语言动作环境(例如,谈判或提问游戏)中,动作空间可以被公式化为令牌上的联合分布,从而导致指数级大的动作空间。在此类空间中采样动作可能导致极端的奖励稀疏性,带来大的奖励方差,从而阻碍有效的强化学习(RL)。为了解决这个问题,我们提出了 ARIA,一种在意图空间中聚合奖励以实现高效和有效语言智能体训练的方法。ARIA 旨在将自然语言动作从高维联合令牌分布空间投射到低维意图空间,其中语义相似的动作被聚类并分配共享奖励。这种意图感知的奖励聚合通过密集化奖励信号来减少奖励方差,从而促进更好的策略优化。大量实验表明,ARIA 不仅显著降低了策略梯度方差,还在四项下游任务中平均带来了 9.95% 的实质性性能提升,持续优于离线和在线 RL 基线。
查看 arXiv 页面查看 PDF

评论

Ruihan YangRuihan Yang
论文作者
论文提交者

大型语言模型 (LLM)