机器翻译的 LLM 推理:关于思维令牌的合成数据生成

发表
Armel Randy ZebazeArmel Randy Zebaze 提交
作者: Armel Zebaze, Rachel Bawden, Benoît Sagot

摘要

大型推理模型(LRM)通过在回答查询之前设计自然语言思维过程,为解决问题带来了新的可能性。虽然它们在数学和编码任务中的能力众所周知,但它们在机器翻译(MT)任务中的影响仍未得到充分研究。在这项工作中,我们探索了在多种语言对(不同资源水平)和多种设置下执行 MT 时中间标记生成的益处。我们发现“思维标记”并不能帮助 LRM 更好地执行 MT。这一结果也推广到了使用模仿人类翻译者实践的蒸馏链式思维(CoT)进行微调,使其先进行推理再翻译的模型。具体来说,使用详细说明如何分步翻译的合成 CoT 解释对模型进行微调,其效果并不优于标准的输入-输出微调。然而,通过组合模块化翻译特定提示策略的输出来构建中间标记可以带来改进。我们的研究结果强调,微调期间中间标记的贡献高度依赖于其中包含翻译尝试。更广泛地说,我们的结果表明,使用教师来改进目标翻译或扩充并行语料库比将其 CoT 解释蒸馏到“思维”MT 模型中更具影响力。
查看 arXiv 页面查看 PDF

评论

Armel Randy ZebazeArmel Randy Zebaze
论文提交者

大型推理模型(LRMs)通过在生成最终答案之前生成自然语言推理步骤,为问题解决开辟了新的途径。虽然它们在数学和编程领域的优势已经得到充分确立,但它们对机器翻译(MT)的潜在影响在很大程度上仍未被探索。在这项工作中,我们研究了生成中间“思考标记”(thinking tokens)是否能跨越多种语言对和资源水平,从而使 LRMs 在 MT 中受益。我们的研究结果表明,在使用通用 LRMs 时,此类标记并不能提高翻译质量。这一观察结果也扩展到使用从教师模型提取的思维链(CoT)并受人类翻译者推理过程启发而进行微调的模型。具体来说,使用合成 CoT 解释——即显式的分步翻译推理——来微调模型,其效果并不优于标准的输入-输出微调。然而,当中间标记通过结合模块化、特定于翻译的提示策略的输出来构建时,会产生性能提升。这些结果表明,在微调过程中中间标记的有用性关键取决于它们是否包含完整的或部分的翻译尝试。更广泛地说,我们的研究表明,利用教师模型改进目标翻译或扩展并行语料库比将教师模型的 CoT 解释提取到“思考”MT 模型中更有益。此外,在应用 GRPO 后,基于思考和标准 MT 模型之间的相对性能排名保持不变。

论文:https://arxiv.org/abs/2510.11919
代码:https://github.com/ArmelRandy/llm-reasoning-mt