当模型用您的语言进行推理时:控制思维轨迹语言会牺牲准确性

发表
Jirui QiJirui Qi 提交
作者: Jirui Qi, Shan ChenShan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza

摘要

近期带有思维链(thinking traces)的大型推理模型 (LRM) 在英语推理任务上表现出色。然而,它们在其他语言中进行思考的能力研究较少。这种能力对于实际应用与答案准确性同样重要,因为用户只有在推理链以其自己的语言表达时,才会觉得它对监督有用。我们在 XReasoning 基准上全面评估了两个领先的 LRM 系列,发现即使是最先进的模型也经常回到英语或在其他语言中产生零碎的推理,揭示了多语言推理方面存在巨大差距。基于提示的干预(强制模型使用用户语言进行推理)提高了可读性和可监督性,但降低了答案准确性,暴露了一个重要的权衡。我们进一步表明,仅对 100 个示例进行有针对性的后训练可以缓解这种不匹配,尽管仍存在一些准确性损失。我们的结果突出了当前 LRM 有限的多语言推理能力,并为未来的工作指明了方向。代码和数据可在 https://github.com/Betswish/mCoT-XReasoning 获取。
查看 arXiv 页面查看 PDF

评论

Jirui QiJirui Qi
论文提交者

大型推理模型 (LRMs) 在英语方面表现出色 — 但它们在您的语言中表现如何?

在这项工作中,我们揭示了它们的局限性以及一个明显的权衡:

控制思维轨迹语言会牺牲准确性