⏶5
利用贝叶斯优化学习可解释的密集奖励形状
发表
由
Ryan Koo 提交
作者:
Ryan Koo,
Ian Yang, Vipul Raheja, Mingyi Hong, Kwang-Sung Jun, Dongyeop Kang
摘要
目前用于大型语言模型 (LLM) 对齐的基于人类反馈的强化学习 (RLHF) 管线通常为序列分配标量奖励,使用最终标记作为整个序列质量的替代指标。然而,这导致了稀疏的反馈和次优的标记级信用分配。在这项工作中,我们将奖励塑造 (reward shaping) 构建为一个侧重于标记级信用分配的优化问题。我们提出了一种利用可解释性方法(如 SHAP 和 LIME)从奖励模型估计每个标记奖励的奖励塑造函数。为了学习此塑造函数的参数,我们采用了双层优化框架,该框架集成了贝叶斯优化和策略训练,以处理标记奖励估计中的噪声。我们的实验表明,更好地平衡标记级奖励归因可以提高下游任务的表现,并在训练过程中更快地找到最优策略。此外,我们在理论上证明,作为特征加性归因函数的可解释性方法可以保持与原始奖励相同的最优策略。
代码地址:https://github.com/minnesotanlp/minnesotanlp/explainable-dense-rewards