SynthesizeMe! 在大型语言模型中引入角色引导提示以实现个性化奖励模型

发表
Michael RyanMichael Ryan 提交
作者: Michael RyanMichael J Ryan, Omar Shaikh, Aditri Bhagirath, Daniel Frees, William Held, Diyi Yang

摘要

最近对大型语言模型(LLM)多元化对齐的呼吁,鼓励模型适应多样化的用户偏好。然而,大多数关于个性化奖励模型的现有工作都严重依赖额外的身份信息,例如人口统计细节或预定义的偏好类别集合。为此,我们引入了 SynthesizeMe,一种从用户交互中推断合成用户画像以进行个性化奖励建模的方法。SynthesizeMe 首先生成并验证解释用户偏好的推理,然后从该推理中推断出合成用户画像,最后筛选出有用的先前用户交互,以便为特定用户构建个性化提示。我们展示了使用 SynthesizeMe 推断的提示可以将 Chatbot Arena 上个性化 LLM 作为评判的准确性提高 4.4%。将 SynthesizeMe 派生的提示与奖励模型结合,在 PersonalRewardBench 上取得了顶尖性能:PersonalRewardBench 是从 Chatbot Arena 和 PRISM 的 854 名用户收集的用户分层聊天机器人交互的新整理数据集。
查看 arXiv 页面查看 PDF

评论

Michael RyanMichael Ryan
论文作者
论文提交者

最近对大型语言模型(LLM)进行多元化对齐的呼吁,鼓励模型适应多样的用户偏好。然而,大多数关于个性化奖励模型的现有工作都严重依赖额外的身份信息,例如人口统计细节或预定义的偏好类别集合。为此,我们引入了 SynthesizeMe,这是一种从用户交互中推断合成用户画像以进行个性化奖励建模的方法。SynthesizeMe 首先生成并验证解释用户偏好的推理,然后从该推理中推断出合成用户画像,最后过滤出有信息量的先验用户交互,从而为特定用户构建个性化提示。我们表明,使用 SynthesizeMe 推断的提示将 Chatbot Arena 上个性化 LLM 作为评判的准确性提高了 4.4%。将 SynthesizeMe 派生的提示与奖励模型结合,在 PersonalRewardBench 上取得了顶尖性能:PersonalRewardBench 是从 Chatbot Arena 和 PRISM 的 854 名用户那里收集的用户分层聊天机器人交互的新整理。