COIG-Writer:一个高质量的中文创意写作数据集,包含思维过程

发表
XinLiXinLi 提交
作者: Yunwen Li, Shuangshuang Ying, Xingwei Qu, XinLiXin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang

摘要

AI 生成总结
COIG-Writer 是一个中文创意写作数据集,揭示了过程监督和通用数据对于创意写作至关重要,文化限制的能力和词汇多样性会影响性能。
大型语言模型在创意写作方面存在系统性缺陷,特别是在训练数据稀缺且缺乏过程级监督的非英语语境中。我们提出了 COIG-Writer,一个新颖的中文创意写作数据集,它通过对高质量文本进行系统性逆向工程,捕捉了多样化的输出及其潜在的思考过程。与提供仅输入-输出对的现有数据集不同,COIG-Writer 包含 1665 个精心策划的三元组,涵盖 51 种体裁,每个三元组包含:(1)一个逆向工程的提示;(2)详细的创意推理,记录决策过程;(3)最终的文本。通过全面的实验,我们确定了创意写作的一个两部分模型:叙事逻辑(由过程监督提供)和语言表达(由通用数据维持)。我们的发现揭示了三个关键见解:(1)过程监督非常有效,但需要用通用数据进行稳定。为了获得最佳性能,需要至少一比十二的创意样本与通用样本的比例;低于此阈值,胜率会逐渐下降(从 62.75% 下降到 35.78%)。(2)创意能力是文化限制的,没有跨语言转移(中文和英文性能之间存在 89.26pp 的差距)。(3)词汇多样性与创意质量成反比(TTR 悖论),这表明高多样性信号表明在逻辑缺陷方面的补偿行为。这些发现表明,卓越的创造力源于逻辑框架和语言基础之间的相互作用,这类似于数学推理如何增强但不能取代基础模型中的语言能力。
查看 arXiv 页面查看 PDF

评论

XinLiXinLi
论文作者
论文提交者

项目主页:https://COIG-Writer.github.io/