超越正确性:跨文化评估主观写作偏好

发表
XinLiXinLi 提交
作者: Shuangshuang Ying, Yunwen Li, Xingwei Qu, XinLiXin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin

摘要

AI 生成总结
具有明确推理链的生成奖励模型在创意写作的偏好学习中优于基于序列的奖励模型和零样本语言模型,这表明需要中间推理来捕捉主观质量。
当前的偏好学习方法在标准基准上实现了高精度,但在客观质量信号被移除时,性能会显著下降。我们推出了 WritingPreferenceBench,这是一个包含 1800 对人类标注的偏好对(1200 个英语,600 个中文)的数据集,涵盖 8 种创意写作体裁,其中响应在客观正确性、事实准确性和长度方面进行了匹配。在该基准上,基于序列的奖励模型——RLHF 的标准架构——平均准确率仅为 52.7%,而零样本语言模型裁判的准确率为 53.9%。相比之下,生成奖励模型可以产生明确的推理链,准确率为 81.8%。我们观察到跨体裁的内部模型方差很高:单个模型在不同写作类别上的准确率范围为 18.2% 至 81.8%,标准差平均为 10.1%。这种方差无论模型规模如何都存在,27B 参数模型显示出比 8B 变体没有持续的改进。我们的结果表明,当前的 RLHF 方法主要学习检测客观错误,而不是捕捉主观质量偏好(例如,创造力、风格和情感共鸣),并且成功的偏好建模可能需要中间推理表示而不是直接分类。
查看 arXiv 页面查看 PDF

评论

XinLiXinLi
论文作者
论文提交者

项目页面:https://WritingPreferenceBench.github.io/