⏶7
Text2Grad: 从自然语言反馈中进行强化学习
发表
由
Chaoyun Zhang 提交
作者: Hanyang Wang, Lu Wang,
Chaoyun Zhang, Tianjun Mao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
摘要
传统的 RLHF 使用粗略的标量奖励优化语言模型,掩盖了成功或失败背后细粒度的原因,导致学习缓慢且不透明。最近的工作通过提示或反思使用文本批评来增强 RL,提高了可解释性,但模型参数未受触及。我们引入 Text2Grad,一种强化学习范式,将自由形式的文本反馈转化为 span 级别的梯度。给定人类(或程序性)批评,Text2Grad 将每个反馈短语与相关的 token span 对齐,将这些对齐转换为可微分的奖励信号,并执行梯度更新,直接优化模型策略中出错的部分。这产生了精确的、依赖于反馈的调整,而不是全局性的推动。Text2Grad 通过三个组件实现:(1) 一个高质量的反馈标注流水线,将批评与 token span 配对;(2) 一个细粒度的奖励模型,在生成解释性批评的同时预测答案上的 span 级别奖励;以及 (3) 一个 span 级别的策略优化器,反向传播自然语言梯度。在摘要、代码生成和问答任务中,Text2Grad 始终超越标量奖励 RL 和仅提示基线,提供了更高的任务指标和更丰富的可解释性。我们的结果表明,自然语言反馈在转换为梯度后,是进行细粒度策略优化的强大信号。我们方法的代码可在 https://github.com/microsoft/Text2Grad 找到。
基于自然语言反馈的强化学习。
代码:https://github.com/microsoft/Text2Grad