⏶3
TopXGen:针对低资源机器翻译的专题多样性并行数据生成
发表
由
Armel Randy Zebaze 提交
作者: Armel Zebaze, Benoît Sagot, Rachel Bawden
摘要
大型语言模型(LLM)在上下文学习(ICL)的帮助下,在机器翻译(MT)方面表现出色,在翻译成高资源语言(HRL)时可与有监督模型媲美。然而,在翻译成低资源语言(LRL)时,它们表现滞后。通过相似性搜索和有监督微调进行示例选择有所帮助。然而,它们带来的改进受到现有并行数据集的大小、质量和多样性的限制。低资源机器翻译中常见的技术是合成并行数据创建,其中最常见的是反向翻译,即现有目标端文本被自动翻译成源语言。然而,这假设存在高质量和相关的目标端文本,而许多低资源语言并不容易获得这些文本。在本文中,我们提出了TopXGen,一种基于LLM的方法,用于生成多种低资源语言中高质量且主题多样的数据,然后可以将其反向翻译以生成有用且多样化的并行文本,用于上下文学习和微调。我们的直觉是,虽然LLM在翻译成低资源语言时遇到困难,但它们擅长翻译成高资源语言的能力和多语言性使它们能够生成高质量、听起来自然的翻译结果(目标端文本),这些文本可以很好地翻译成高资源源语言。我们表明,TopXGen在微调和上下文学习期间提升了LLM的翻译性能。代码和输出可在https://github.com/ArmelRandy/topxgen获取。
我们推出了 TopXGen,这是一个使用大型语言模型(LLM)为低资源语言生成高质量、主题多样化的合成数据的流程。虽然大型语言模型在正确翻译成低资源语言时常常遇到困难,但其多语言能力使其能够在这些语言中生成体面、听起来自然的文本,然后可以将这些文本反向翻译成高资源语言以创建平行数据集。与传统的反向翻译不同,TopXGen 不需要目标语言中存在大量现有语料库。我们证明 TopXGen 在监督微调和上下文学习设置中都提高了机器翻译性能。