多语言、多文化人工智能系统中合成数据的作用:来自印度语言的经验教训

发表
Pranjal A. ChitalePranjal A. Chitale 提交
作者: Pranjal A. ChitalePranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram

摘要

AI 生成总结
针对印度语言的合成、文化情境化数据集,通过使用大型开源 LLMs 进行自下而上的生成策略,提高了多语言 AI 的性能,尤其是在低资源和中等资源语言方面。
在低资源环境下,开发能够跨语言有效运行且保持文化根基的人工智能系统一直是一项长期存在的挑战。虽然合成数据提供了一条有希望的途径,但其在多语言和多文化环境中的有效性仍未得到充分探索。我们通过一种自下而上的生成策略,调查了为印度语言创建的、具有文化背景的合成数据集及其影响。该策略提示大型开源语言模型(≥ 2350 亿参数)将数据生成 grounding 在特定语言的维基百科内容中。这种方法是对诸如英语等高资源语言的合成数据集进行翻译的主流自上而下范式的补充。我们介绍了 Updesh,这是一个高质量的大规模合成指令遵循数据集,包含 13 种印度语言的 950 万个数据点,涵盖了多样化的推理和生成任务,重点关注长上下文、多轮能力以及与印度文化背景的对齐。一项综合评估,结合了对 10,000 次评估的自动指标和人工标注,表明生成的数据质量很高;尽管如此,人工评估也指出了需要进一步改进的领域。此外,我们通过在我们的数据集上微调模型并评估模型在 15 个不同多语言数据集上的表现来进行下游评估。在 Updesh 上训练的模型在生成任务上始终取得显著的提升,并在多项选择式 NLU 任务上保持竞争力。值得注意的是,相对改进在低资源和中资源语言中最为明显,缩小了它们与高资源语言之间的差距。这些发现提供了经验证据,表明有效的多语言人工智能需要多方面的数据策选和生成策略,这些策略应包含上下文感知、文化根基的方法。
查看 arXiv 页面查看 PDF

评论

Pranjal A. ChitalePranjal A. Chitale
论文作者
论文提交者

这项工作介绍了 Updesh,一个大规模合成指令遵循数据集,包含 13 种印度语言的 950 万个数据点,涵盖各种推理和生成任务,重点是长上下文、多轮交互以及与印度文化背景的对齐。该数据集包含两个子集:一个推理子集,通过使用 Llama 3.1 405B Instruct 将 Orca-Agent Instruct 选择性地翻译成印度语言创建;一个生成子集,通过使用 Qwen3-235B 模型,利用本地语言维基百科内容进行基础生成来开发。这种自下而上的方法的一个关键优势在于,可以生成更自然、基于与当地社区相关的主题的文本,同时保持事实准确性。