⏶3
Tower+:弥合多语言LLM中的通用性与翻译专业化
发表
由
José Maria Pombal 提交
作者:
Ricardo Rei, Nuno M. Guerreiro,
José Pombal,
João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins

摘要
预训练大型语言模型的微调已被证明是在机器翻译等特定任务上达到最先进性能的有效策略。然而,这种适应过程通常意味着牺牲通用能力,如对话推理和指令遵循,这阻碍了系统在需要多种技能的实际应用中的实用性。在本文中,我们介绍了 Tower+,这是一套旨在在翻译和多语言通用文本能力方面均提供强大性能的模型。我们通过引入一种基于 Tower (Alves et al., 2024) 的新颖训练配方,在翻译专业化和多语言通用能力之间实现了帕累托前沿,该配方包括持续预训练、监督微调、偏好优化和基于可验证奖励的强化学习。在训练的每个阶段,我们都精心生成和整理数据,以增强翻译性能以及涉及代码生成、数学问题解决和通用指令遵循的通用任务的性能。我们开发了多种规模的模型:2B、9B 和 72B。我们的小型模型通常优于大型通用开源和专有大型语言模型(例如 Llama 3.3 70B、GPT-4o)。我们最大的模型在富资源语言的翻译性能方面提供了同类最佳表现,并在多语言 Arena Hard 评估和 IF-MT(我们引入的用于评估翻译和指令遵循的基准)中取得了顶尖成果。我们的研究结果强调,在通用能力方面与前沿模型媲美的同时,针对翻译和本地化等特定业务领域进行优化是可能实现的。
预训练大型语言模型(LLMs)的微调已被证明是一种有效的策略,能够在机器翻译等特定任务上达到最先进的性能。然而,这种适应过程往往意味着牺牲通用能力,例如对话推理和指令遵循,从而阻碍了系统在需要多种技能的实际应用中的效用。在本文中,我们介绍了Tower+,这是一套旨在在翻译和多语言通用文本能力方面均提供强大性能的模型。我们通过引入一种基于Tower(Alves 等,2024)的新颖训练方法,包括持续预训练、监督微调、偏好优化和具有可验证奖励的强化学习,实现了翻译专业化和多语言通用能力之间的帕累托前沿。在训练的每个阶段,我们都精心生成和整理数据,以增强翻译以及涉及代码生成、数学问题解决和通用指令遵循等通用任务的性能。我们开发了多种规模的模型:2B、9B和72B。我们较小的模型通常优于大型通用开源和专有大型语言模型(例如,Llama 3.3 70B,GPT-4o)。我们最大的模型为高资源语言提供了同类最佳的翻译性能,并在多语言Arena Hard评估和IF-MT(我们引入的用于评估翻译和指令遵循的基准)中取得了顶尖结果。我们的研究结果强调,在优化特定业务领域(如翻译和本地化)的同时,仍有可能在通用能力方面与前沿模型相媲美。