从 2,000+ 多语言基准中学到的惨痛教训

发表
Minghao WuMinghao Wu 提交
作者: Minghao WuMinghao Wu, weixuan wangWeixuan Wang, LiuSinuoSinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang LyuChenyang Lyu, Longyue WangLongyue Wang, Weihua LuoWeihua Luo, Kaifu ZhangKaifu Zhang

摘要

随着大型语言模型(LLMs)在语言能力上不断进步,强大的多语言评估对于促进公平的技术发展至关重要。本立场文件审查了2021年至2024年间发布的、来自148个国家/地区的2000多个多语言(非英语)基准,以评估多语言基准测试的过去、现在和未来实践。我们的研究结果显示,尽管进行了数千万美元的巨额投资,英语在这些基准中仍然占据显著的过度代表。此外,大多数基准依赖于原始语言内容而非翻译,其中大部分内容来自中国、印度、德国、英国和美国等高资源国家。再者,基准性能与人类判断的比较突显了显著的差异。STEM(科学、技术、工程、数学)相关任务与人类评估表现出强相关性(0.70至0.85),而像问答(例如 XQuAD)这样的传统自然语言处理(NLP)任务则显示出弱得多的相关性(0.11至0.30)。此外,将英语基准翻译成其他语言被证明是不够的,因为本地化基准与本地人类判断的对齐程度(0.68)显著高于其翻译版本(0.47)。这强调了创建符合文化和语言习惯的基准的重要性,而非仅仅依赖翻译。通过这项全面的分析,我们指出了当前多语言评估实践中的六个关键局限性,并据此提出了有效多语言基准测试的指导原则,以及概述了推动该领域进步的五个关键研究方向。最后,我们呼吁开展全球协作,以开发优先考虑实际应用、与人类判断对齐的基准。
查看 arXiv 页面查看 PDF

评论

Minghao WuMinghao Wu
论文作者
论文提交者

past_present_future-1.png