⏶22
J1:通过强化学习激励LLM作为判断者进行思考
发表
由
Swarnadeep Saha 提交
作者: Chenxi Whitehouse,
Tianlu Wang, Ping Yu, Xian Li,
Jason Weston,
Ilia Kulikov,
Swarnadeep Saha
摘要
人工智能的进展受到评估质量的瓶颈制约,而强大的“LLM 作为评判者” (LLM-as-a-Judge) 模型已被证明是一个核心解决方案。改进的评判能力得益于更强的链式思维推理,这促使我们寻找训练此类模型进行思考的最佳方法 (recipes)。在这项工作中,我们介绍了 J1,一种用于训练此类模型的强化学习方法。我们的方法将可验证和不可验证的提示都转换为具有可验证奖励的评判任务,这些奖励能够激励思考并减轻评判偏差。特别是,我们的方法在训练到相应规模时,优于所有其他现有的 8B 或 70B 模型,包括从 DeepSeek-R1 蒸馏而来的模型。尽管训练的是一个更小的模型,J1 在某些基准测试上也优于 o1-mini,甚至 R1。我们提供了分析和消融研究,比较了 Pairwise-J1 与 Pointwise-J1 模型、离线 vs 在线训练方法、奖励策略、种子提示以及思维长度和内容的变化。我们发现,通过学习概述评估标准、对照自我生成的参考答案进行比较以及重新评估模型响应的正确性,我们的模型做出了更好的评判。
J1 是一种强化学习方案,用于训练成对或逐点式 Thinking-LLM-as-a-Judge 模型。使用我们的方法,我们训练了两个模型,J1-Llama-8B 和 J1-Llama-70B,在各自的模型规模下,其性能优于所有现有模型(例如 o1-mini),并在不可验证的任务上甚至优于规模大得多的 R1 模型。