MUG-Eval:一种适用于任何语言的多语言生成能力代理评估框架

发表
Seyoung SongSeyoung Song 提交
作者: Seyoung SongSeyoung Song, Seogyeong Jeong, Eunsu KimEunsu Kim, Jiho JinJiho Jin, Dongkwan Kim, Jay Shin, Alice OhAlice Oh

摘要

评估大型语言模型 (LLM) 的文本生成能力具有挑战性,特别是对于缺乏直接评估方法的低资源语言。我们提出了 MUG-Eval,这是一个新颖的框架,通过将现有基准测试转化为对话任务并衡量 LLM 在这些任务上的准确率来评估 LLM 的多语言生成能力。我们专门设计了这些对话任务,旨在要求在目标语言中进行有效沟通。然后,我们简单地使用任务成功率作为衡量成功对话生成的代理指标。我们的方法提供两个主要优势:它独立于特定语言的 NLP 工具或标注数据集(这些在大多数语言中都是有限的),并且不依赖于作为评估者的 LLM,它们在少数高资源语言之外的评估质量会下降。我们评估了 8 个 LLM 在涵盖高资源、中资源和低资源类别的 30 种语言上的表现,我们发现 MUG-Eval 与现有基准测试强相关 (r > 0.75),同时能够实现跨语言和跨模型的标准化比较。我们的框架提供了一个强大且资源高效的解决方案,用于评估多语言生成能力,并且可以扩展到数千种语言。
查看 arXiv 页面查看 PDF
MUG-Eval:一种适用于任何语言的多语言生成能力代理评估框架

评论

Seyoung SongSeyoung Song
论文作者
论文提交者

MUG-Eval 解决了多语言大型语言模型(LLM)评估中的一个关键挑战:如何在不依赖稀缺参考文本或有偏见的 LLM 评委的情况下,公平地评估跨语言的生成能力。我们引入了一个巧妙的框架,利用自我交流任务(如“简单二十问”、“多项选择题对话”和“代码重构”)来评估 LLM,在这些任务中,LLM 必须使用目标语言进行有效沟通以完成任务。这种方法在资源上非常高效——无需人工标注或特定语言工具——但与现有基准测试高度相关 (r > 0.75)。MUG-Eval 在 8 个 LLM 和 30 种语言上进行了评估,揭示了不同资源类别上的性能模式,同时提供了比现有基准测试更好的区分能力。或许最令人印象深刻的是,该框架有可能通过 GlotLID 扩展到 2000 多种语言,提供了一个真正与语言无关的多语言评估解决方案,这可能极大地推进全球语言中 LLM 公平评估。