样本充足时:扩展推理计算对多语言大型语言模型的好处

发表
Julia KreutzerJulia Kreutzer 提交
作者: Ammar KhairiAmmar Khairi, Daniel D'souzaDaniel D'souza, Ye Shen, Julia Kreutzer, Sara Hooker

摘要

大型语言模型(LLM)的最新进展已将重点转向扩展推理时计算,在不重新训练模型的情况下提高性能。一种常见方法是并行采样多个输出,然后从中选择一个作为最终输出。然而,迄今为止的工作主要集中在英语和少数领域,如数学和代码。相比之下,我们更关注在开放式任务、可形式验证任务以及跨语言之间泛化的技术。在这项工作中,我们研究了如何在多语言、多任务设置中稳健地扩展开放式生成任务的推理时计算。 我们的研究结果表明,基于温度变化的采样策略和选择策略都必须进行调整,以适应不同的领域和多样的语言设置。我们评估了现有的选择方法,发现那些在英语中有效的方法往往无法泛化到其他语言。我们提出了专门为多语言和多任务推理场景设计的新型采样和选择策略,并展示它们在各种语言和任务中都取得了显著的进步。特别是,我们的组合采样和选择方法使我们的8B模型在m-ArenaHard-v2.0提示上的胜率平均提高了+6.8,优于Gemini等专有模型。在更大规模上,配备我们方法的Command-A(111B模型),仅用五个样本就比单样本解码在相同基准上显示出+9.0的胜率提升,以最小的成本实现了显著的增长。我们的结果强调了推理时计算中语言和任务感知方法的必要性,旨在普及欠代表语言的性能改进。
查看 arXiv 页面查看 PDF

评论

Julia KreutzerJulia Kreutzer
论文提交者

用于优化并行扩展推理的新技术,适用于多语言多任务设置和实际的扩展因子。