对比偏好优化:在机器翻译中突破LLM性能的界限

01月16日发表
04月12日由 AKAK 提交
作者: Haoran XuHaoran Xu, Amr SharafAmr Sharaf, Yunmo ChenYunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton MurrayKenton Murray, Young Jin KimYoung Jin Kim

摘要

中等规模的大型语言模型(LLM)——参数量在 7B 或 13B 左右的模型——展现出令人鼓舞的机器翻译(MT)性能。然而,即使是性能最佳的基于 13B LLM 的翻译模型,如 ALMA,也无法与最先进的传统编码器-解码器翻译模型或更大规模的 LLM(如 GPT-4)的性能相媲美。在本研究中,我们弥合了这一性能差距。我们首先评估了监督微调在 LLM 的机器翻译任务中的缺点,强调了参考数据中存在的质量问题,尽管这些数据是人工生成的。然后,与模仿参考翻译的 SFT 形成对比,我们引入了对比偏好优化(CPO),这是一种新颖的方法,旨在训练模型避免生成足够但不完美的翻译。将 CPO 应用于仅有 2.2 万个平行句子和 1200 万参数的 ALMA 模型,可产生显著的改进。由此产生的模型,称为 ALMA-R,在 WMT'21、WMT'22 和 WMT'23 测试数据集上,可以匹敌甚至超过 WMT 竞赛的获胜者和 GPT-4 的性能。

评论

Derek ThomasDerek Thomas

这看起来很迷人。我喜欢您在 hub 上有这些模型。惊人的工作 @haoranxu 和所有人!

https://huggingface.co/haoranxu/ALMA-13B-R

Julien BLANCHONJulien BLANCHON
新方法在机器翻译中击败 GPT-4:介绍对比偏好优化

https://cdn-uploads.huggingface.co/production/uploads/6186ddf6a7717cb375090c01/3ZcRIm9c8TLtWgelKGnuY.mp4

链接 🔗:

👉 订阅: https://www.youtube.com/@Arxflix

👉 推特: https://x.com/arxflix

👉 LMNT (合作伙伴): https://lmnt.com/

作者:Arxflix

9t4iCUHx_400x400-1.jpg