LitBench:用于创意写作可靠评估的基准与数据集

发表
Violet XiangViolet Xiang 提交
作者: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber

摘要

评估大型语言模型(LLM)生成的创意写作仍然具有挑战性,因为开放式叙事缺乏真值。在缺乏高性能自动化评估方法的情况下,现成的(OTS)语言模型被用作零样本评判器,但它们在此情境下的可靠性尚不明确。为了追求对创意写作的鲁棒评估,我们引入了LitBench,这是首个用于创意写作验证的标准化基准和配对数据集,它包含一个由Reddit中提取的2,480个去偏的、人工标注的故事比较组成的预留测试集,以及一个包含43,827对人类偏好标签的训练语料库。利用LitBench,我们(i)对零样本LLM评判器进行了基准测试,(ii)训练了Bradley Terry和生成式奖励模型,以及(iii)进行了一项在线人体研究以验证奖励模型在新的LLM生成的故事上的排名。我们的基准测试表明,Claude-3.7-Sonnet是表现最强的现成评判器,与人类偏好达到73%的一致性;在已训练的奖励模型中,Bradley Terry和生成式奖励模型均达到78%的准确率,优于所有现成评判器。一项在线人体研究进一步证实,我们训练的奖励模型在新LLM生成的故事中始终与人类偏好保持一致。我们已在https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461发布了LitBench和奖励模型,为创意写作系统的可靠、自动化评估和优化提供了一份经过审查的资源。
查看 arXiv 页面查看 PDF

评论

Violet XiangViolet Xiang
论文提交者

评估大型语言模型(LLM)生成的创意写作仍然具有挑战性,因为开放式叙事缺乏真实答案。由于缺乏高效的自动化评估方法,现成的(OTS)语言模型被用作零样本判官,但在这种情况下它们的可靠性尚不明确。为了对创意写作进行稳健评估,我们引入了 LitBench,这是首个用于创意写作验证的标准化基准和配对数据集,它包含一个由 Reddit 抽取的 2,480 对去偏、人工标注的故事比较组成的保留测试集,以及一个包含 43,827 对人类偏好标签的训练语料库。利用 LitBench,我们(i)对零样本 LLM 判官进行了基准测试,(ii)训练了 Bradley Terry 和生成式奖励模型,以及(iii)进行了一项在线人工研究,以验证奖励模型在新 LLM 生成的故事上的排名。我们的基准测试表明 Claude-3.7-Sonnet 是最强大的现成判官,与人类偏好的一致性达到 73%;在训练过的奖励模型中,Bradley-Terry 和生成式奖励模型都达到了 78% 的准确率,优于所有现成判官。一项在线人工研究进一步证实,我们训练的奖励模型在新 LLM 生成的故事中与人类偏好保持一致。我们已在 https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461 发布了 LitBench 和奖励模型,为创意写作系统的可靠自动化评估和优化提供了经过验证的资源。