多语言思考能够增强LLM的推理能力吗?

发表
FeiYuanFeiYuan 提交
作者: Changjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan

摘要

先前的工作表明,大型语言模型表现出显著的“英语偏见”,即当任务以英语呈现时,它们通常表现更好。有趣的是,我们观察到在推理任务中使用某些其他语言可以产生比英语更好的性能。然而,这种现象仍未得到充分探索。在本文中,我们探索了利用多语言在推理任务中的上限,表明多语言推理有望比仅英语推理显著(接近 10 个 Acc@k 点)且稳健地(对翻译质量和语言选择的变异具有容忍度)提高上限。除了分析上限背后的原因以及达到上限的挑战外,我们还发现,由于其局限性和偏见,常见的答案选择方法无法达到此上限。这些见解可能为未来旨在充分利用 LLM 中多语言推理潜力的研究铺平道路。
查看 arXiv 页面查看 PDF

评论

FeiYuanFeiYuan
论文提交者

先前的研究表明,大型语言模型表现出明显的“英语偏见”,即当任务以英语呈现时,它们通常表现更好。有趣的是,我们观察到在推理任务中使用某些其他语言可以产生比英语更好的性能。然而,这种现象仍未被充分探索。在本文中,我们探索了在推理任务中利用多语言性的上限,表明多语言推理比仅英语推理具有显著(接近 10 个 Acc@k 点)且稳健(对翻译质量和语言选择的容忍度)更高的上限。除了分析上限背后的原因以及达到上限的挑战之外,我们还发现,由于其局限性和偏差,常见的答案选择方法无法达到此上限。这些见解可能为未来旨在充分利用 LLM 中多语言推理潜力的研究铺平道路。