弗兰肯文本:将随机文本片段缝合为长篇叙事

发表
Chau Minh PhamChau Minh Pham 提交
作者: Chau Minh Pham, Jenna Russell, Dzung Pham, Mohit Iyyer

摘要

我们引入了Frankentexts,这是一种新型的长篇叙事,由LLM在极端约束下生成,即大多数标记(例如90%)必须一字不差地复制自人类作品。这项任务对可控生成提出了严峻考验,要求模型满足写作提示,整合不同文本片段,并仍能生成连贯的叙事。为了生成Frankentexts,我们指导模型通过选择和组合人类撰写的段落来生成草稿,然后迭代修改草稿,同时保持用户指定的复制比例。我们从三个方面评估生成的Frankentexts:写作质量、指令遵循度以及可检测性。Gemini-2.5-Pro在该任务上表现出令人惊讶的良好性能:其81%的Frankentexts是连贯的,100%与提示相关。值得注意的是,高达59%的这些输出被Pangram等检测器错误地分类为人类撰写,揭示了AI文本检测器的局限性。人类标注者有时可以通过Frankentexts中突兀的语调转变和片段间不一致的语法来识别它们,尤其是在较长的生成内容中。除了提出一个具有挑战性的生成任务外,Frankentexts还引发了关于为这种新的“灰色作者区域”构建有效检测器的讨论,为混合作者检测提供训练数据,并作为研究人机协同写作过程的沙盒。
查看 arXiv 页面查看 PDF
弗兰肯文本:将随机文本片段缝合为长篇叙事

评论

Chau Minh PhamChau Minh Pham
论文提交者

我们介绍了Frankentexts,这是一种新型长篇叙事,由LLM在极端约束下生成,即大多数令牌(例如90%)必须逐字复制自人类写作。这项任务对可控生成提出了严峻考验,要求模型既能满足写作提示,又能整合不相关的文本片段,同时还能生成连贯的叙事。

为了生成Frankentexts,我们指示模型通过选择和组合人类编写的段落来生成草稿,然后迭代修订草稿,同时保持用户指定的复制比例。

我们从三个方面评估生成的Frankentexts:写作质量、指令遵循度和可检测性。Gemini-2.5-Pro 在这项任务上的表现出奇地好:其81%的Frankentexts连贯一致,100%与提示相关。值得注意的是,这些输出中高达59%被Pangram等检测器错误地分类为人类创作,这揭示了AI文本检测器的局限性。人类标注者有时可以通过Frankentexts中突兀的语调转变和片段间不一致的语法来识别它们,尤其是在较长的生成内容中。

除了提出一个具有挑战性的生成任务外,Frankentexts还引发了关于为这种新型的“authorship 灰色地带”构建有效检测器的讨论,为混合 authorship 检测提供训练数据,并作为研究人机协作写作过程的沙盒。