⏶8
通过测试时缩放进行的跨语言推理
发表
由
Yong Zheng-Xin 提交

作者:
Zheng-Xin Yong, M. Farid Adilazuarda,
Jonibek Mansurov, Ruochen Zhang,
Niklas Muennighoff, Carsten Eickhoff,
Genta Indra Winata,
Julia Kreutzer, Stephen H. Bach,
Alham Fikri Aji





摘要
大语言模型的推理能力主要针对英语进行研究,即使预训练模型是多语言的。在这项工作中,我们研究了使用长思维链(CoT)进行英语推理微调在多大程度上可以泛化到其他语言。首先,我们发现增加以英语为中心的推理语言模型(RLM)的推理计算量,可以改善包括低资源语言在内的多种语言的多语言数学推理能力,甚至使其性能优于两倍于自身大小的模型。其次,我们发现虽然以英语为中心的RLM的CoT自然地以英语为主,但它们在对引用的非英语输入进行推理时,始终遵循“引用后思考”(quote-and-think)的模式。第三,我们发现了一种控制长CoT推理语言的有效策略,并观察到模型在高资源语言中推理得更好、效率更高。最后,我们观察到领域外推理泛化能力较差,特别是从STEM领域到文化常识知识,即使是对于英语也如此。总的来说,我们展示了英语推理在测试时扩展的跨语言泛化潜力,研究了其机制并概述了其局限性。我们得出结论,实践者应让以英语为中心的RLM在高资源语言中进行推理,同时还需要进一步的工作来改进在低资源语言和领域外情境中的推理能力。
推理语言模型主要在英语数据上进行训练,但它们在不同领域的多语言环境中是否也能很好地泛化?
我们表明,测试时的缩放(test-time scaling)可以提高其零样本跨语言推理性能。这是通过复杂的“引用与思考(quote-and-think)”模式实现的。但我们观察到,以英语为中心的数学推理模型在被迫使用低资源语言进行思考时,以及应用于非STEM领域时,表现不佳。