German4All - 一个用于德语可读性控制释义的数据集和模型

发表
Stefan SchweterStefan Schweter 提交
作者: Miriam Anschütz, Thanh Mai Pham, Eslam Nasrallah, Maximilian Müller, Cristian-George Craciun, Georg Groh

摘要

跨不同复杂性级别释义文本的能力对于创建可适应不同读者群体的无障碍文本至关重要。因此,我们引入了German4All,这是第一个大规模德语数据集,其中包含**对齐的、可读性控制的、段落级别的释义**。它涵盖了五个可读性级别,包含超过 25,000 个样本。该数据集使用 GPT-4 自动合成,并通过**人类和基于 LLM 的判断**进行了严格评估。使用 German4All,我们训练了一个**开源的、可读性控制的释义模型**,该模型在德语文本**简化**方面取得了最先进的性能,能够实现更细致、更具针对性的读者适应。我们开源了数据集和模型,以鼓励在**多级释义**方面的进一步研究。
查看 arXiv 页面查看 PDF
German4All - 一个用于德语可读性控制释义的数据集和模型

评论

Stefan SchweterStefan Schweter
论文提交者

> 该论文介绍了 German4All,这是第一个用于可读性控制释义的大规模德语数据集。它包含超过 25,000 个基于维基百科的段落样本,由 GPT-4 释义成五种不同的复杂程度,从供阅读困难人群阅读的简单语言到学术水平的德语。

Stefan SchweterStefan Schweter
论文提交者

对于德语来说,这是一个非常棒的资源,非常感谢 @MiriUll 和团队!

Stefan SchweterStefan Schweter
论文提交者

我偶然从头开始预训练了一个新的德语 T5 模型(参见 https://huggingface.co/GermanT5/occiglot5),也许也值得尝试一下 :)

jeremy fragrantinojeremy fragrantino

Stark