评估跨不同领域的文本创造力:一个数据集和大型语言模型评估器

发表
Qian CaoQian Cao 提交
作者: Qian CaoQian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song

摘要

创意评估仍然是大型语言模型 (LLMs) 面临的挑战性前沿。当前的评估严重依赖于低效且昂贵的人工判断,阻碍了机器创意增强的进展。虽然存在自动化方法,从心理测试到基于启发式或提示的方法,但它们往往缺乏通用性或与人类判断对齐。为了解决这些问题,在本文中,我们提出了一种新颖的配对比较框架来评估文本创意,利用共享的上下文指令来提高评估一致性。我们引入了 CreataSet,一个大规模数据集,包含 10 万多个人类水平的创意指令-响应对和 100 万多个合成的创意指令-响应对,涵盖了各种开放域任务。通过在 CreataSet 上训练,我们开发了一个基于 LLM 的评估器,名为 CrEval。CrEval 在与人类判断的对齐方面表现出优于现有方法的显着优势。实验结果强调了在训练高度鲁棒的评估器中整合人类生成和合成数据的重要性,并展示了 CrEval 在提升 LLM 创意方面的实际效用。我们将很快公开所有数据、代码和模型,以支持进一步的研究。
查看 arXiv 页面查看 PDF

评论

Qian CaoQian Cao
论文作者
论文提交者

https://creval-creative-evaluation.github.io/