联合强化语言模型生成的多样性和质量

发表
Tianjian LiTianjian Li 提交
作者: Tianjian LiTianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel KhashabiDaniel Khashabi, Jason WestonJason Weston, Jack LanchantinJack Lanchantin, Tianlu WangTianlu Wang

摘要

大型语言模型(LLMs)的后训练通常优先考虑准确性和有用性,但会牺牲多样性。这造成了一种矛盾:尽管后训练提高了响应质量,但它也锐化了输出分布并减少了想法的范围,从而限制了 LLMs 在头脑风暴、讲故事或解决问题等创意和探索性任务中的用途。我们通过多用性感知强化学习(DARLING)来应对这一挑战,DARLING 是一个同时优化响应质量和语义多样性的框架。其核心是,DARLING 引入了一个学习到的划分函数来衡量超越表面词汇变化的粒度。然后,将此多样性信号与在线强化学习中的质量奖励相结合,鼓励模型生成高质量且独特的输出。跨多个模型系列和规模的实验表明,DARLING 能够泛化到两种模式:不可验证任务(指令遵循和创意写作)以及可验证任务(竞赛数学)。在第一种设置下的五个基准测试中,DARLING 在产生同时具有更高质量和新颖性的输出方面,始终优于仅关注质量的 RL 基线。在第二种设置下,DARLING 在 pass@1(解决方案质量)和 pass@k(解决方案多样性)方面取得了更高的分数。最引人注目的是,明确优化多样性促进了在线 RL 中的探索,这体现为更高质量的响应。
查看 arXiv 页面查看 PDF

评论

Tianjian LiTianjian Li
论文作者
论文提交者

大型语言模型(LM)的事后训练通常以牺牲多样性为代价来优先考虑准确性和有用性。这造成了一种紧张关系:虽然事后训练可以提高响应质量,但它也会锐化输出分布并减少思想的范围,限制了LM在创意和探索性任务中的效用,例如头脑风暴、讲故事或解决问题。我们通过 DARLING(Diversity-Aware Reinforcement Learning,多样性感知强化学习)框架解决了这一挑战,该框架联合优化响应质量和语义多样性。其核心是,DARLING引入了一个学习到的分区函数,以衡量超越表面词汇变化的差异。然后,在在线强化学习中,将这种多样性信号与质量奖励相结合,鼓励模型生成既高质量又独特的输出。跨多个模型系列和规模的实验表明,DARLING可以推广到两种情况:不可验证的任务(指令遵循和创意写作)和可验证的任务(竞赛数学)。在第一种情况下的五个基准测试中,DARLING持续优于仅质量RL基线,生成的输出同时具有更高的质量和新颖性。在第二种情况中,DARLING实现了更高的pass@1(解决方案质量)和pass@k(解决方案多样性)。最引人注目的是,明确优化多样性可以促进在线RL中的探索,这表现为更高质量的响应。