ExTrans:基于范例增强强化学习的多语言深度推理翻译

发表
Jiaan WangJiaan Wang 提交
作者: Jiaan WangJiaan Wang, Fandong MengFandong Meng, Jie Zhou

摘要

近年来,大型推理模型(LRMs)的出现,例如OpenAI-o1和DeepSeek-R1,在数学和编码等复杂问题上展现了令人印象深刻的能力。一些开创性研究试图将LRMs的成功应用于神经机器翻译(MT)。他们尝试通过强化学习(RL)构建具有深度推理MT能力的LRMs。尽管取得了一些进展,但这些尝试通常侧重于几种高资源语言,例如英语和中文,而其他语言的表现尚不明确。此外,先前工作中的奖励建模方法未能充分释放强化学习在MT中的潜力。在这项工作中,我们首先设计了一种新的奖励建模方法,该方法将策略MT模型的翻译结果与强大的LRM(即DeepSeek-R1-671B)进行比较,并将比较结果量化以提供奖励。实验结果证明了该奖励建模方法的优越性。使用Qwen2.5-7B-Instruct作为骨干模型,训练出的模型在文学翻译中达到了新的最先进水平,并优于包括OpenAI-o1和DeepSeeK-R1在内的强大LRMs。此外,我们将我们的方法扩展到包含11种语言的多语言设置。通过在RL中精心设计的轻量级奖励建模,我们可以简单地将单一方向的强大MT能力转移到多个(即90个)翻译方向,并实现令人印象深刻的多语言MT性能。
查看 arXiv 页面查看 PDF

评论