WebNovelBench:在网络小说分布上定位LLM小说家

发表
JunJun 提交
作者: Lin LiangtaoLeon Lin, JunJun Zheng, Haidong Wang

摘要

鲁棒地评估大型语言模型(LLMs)的长篇故事创作能力仍然是一个重大挑战,因为现有基准测试往往缺乏必要的规模、多样性或客观衡量标准。为了解决这个问题,我们引入了 WebNovelBench,一个专门为评估长篇小说生成而设计的新型基准测试。WebNovelBench 利用了一个包含 4,000 多部中文网络小说的大规模数据集,将评估框架化为从梗概到故事的生成任务。我们提出了一个多方面框架,涵盖八个叙事质量维度,通过“LLM 作为评委”的方法进行自动化评估。分数使用主成分分析进行聚合,并映射到相对于人类创作作品的百分位数排名。我们的实验表明,WebNovelBench 有效地区分了人类创作的杰作、热门网络小说和 LLM 生成的内容。我们对 24 个最先进的 LLM 进行了全面分析,对其故事创作能力进行了排名,并为未来的发展提供了见解。这个基准测试为评估和推进 LLM 驱动的叙事生成提供了一种可扩展、可复现和数据驱动的方法。
查看 arXiv 页面查看 PDF

评论

JunJun
论文作者
论文提交者

稳健地评估大型语言模型(LLMs)的长篇故事创作能力仍然是一个重大挑战,因为现有基准通常缺乏必要的规模、多样性或客观衡量标准。为解决这一问题,我们引入了 WebNovelBench,这是一个专门为评估长篇小说生成而设计的新型基准。WebNovelBench 利用了一个包含 4,000 多部中文网络小说的大规模数据集,将评估框定为从概要到故事的生成任务。我们提出了一个多方面的框架,涵盖了八个叙事质量维度,通过“LLM 作为评委”(LLM-as-Judge)的方法进行自动评估。分数使用主成分分析(Principal Component Analysis)进行汇总,并映射到相对于人类创作作品的百分位排名。我们的实验表明,WebNovelBench 能有效区分人类创作的杰作、热门网络小说和 LLM 生成的内容。我们对 24 个最先进的 LLMs 进行了全面分析,对其故事创作能力进行了排名,并为未来的发展提供了见解。该基准为评估和推动 LLM 驱动的叙事生成提供了一种可扩展、可复制和数据驱动的方法。