⏶6
探究低资源语言对话中的幻觉现象
发表
由
Aman Chadha 提交

作者: Amit Das, Md. Najib Hasan, Souvika Sarkar, Zheng Zhang, Fatemeh Jamshidi, Tathagata Bhattacharya, Nilanjana Raychawdhury, Dongji Feng, Vinija Jain,
Aman Chadha

摘要
大型语言模型(LLM)在生成与人类写作高度相似的文本方面表现出卓越的能力。然而,它们常常会生成事实不正确的陈述,这个问题通常被称为“幻觉”。解决幻觉问题对于增强LLM的可靠性和有效性至关重要。虽然许多研究都集中在英语中的幻觉问题上,但我们的研究将此调查扩展到三种语言的对话数据中:印地语、波斯语和中文普通话。我们对一个数据集进行了全面分析,以检验GPT-3.5、GPT-4o、Llama-3.1、Gemma-2.0、DeepSeek-R1和Qwen-3在这些语言中的事实性和语言性错误。我们发现,LLM在中文普通话中产生的幻觉响应非常少,但在印地语和波斯语中产生的幻觉数量则要高得多。
该论文首次对多语言对话LLM输出(GPT-3.5、GPT-4o、Llama-3.1、Gemma-2.0、DeepSeek-R1、Qwen-3)在印地语、波斯语和普通话中的幻觉进行了系统评估,揭示了印地语/波斯语中存在高度幻觉,而普通话中幻觉极少,并提出了使用翻译对话语料库进行基准式评估的方法。
➡️ 我们低资源幻觉基准测试的亮点:
🧪 多语言对话幻觉评估:
引入了针对三种低资源语言(印地语、波斯语、普通话)的幻觉基准测试,使用了BlendedSkillTalk和DailyDialog数据集的LLM翻译版本,并根据ROUGE-1和ROUGE-L分数对模型响应进行评估,并进行人工验证。
🧩 LLM家族和语言的比较分析:
发现GPT-4o和GPT-3.5在最小化幻觉方面优于开源模型(LLaMA、Gemma、DeepSeek、Qwen),尤其是在普通话中;然而,所有模型在印地语和波斯语中的幻觉更多,这表明当前LLM在低资源设置下的局限性。
🧠 资源感知幻觉模式和修复:
将幻觉差异归因于训练数据可用性;建议使用检索增强生成(RAG)、接地解码和特定语言微调来提高低资源对话代理的事实性,并通过母语使用者评估确认幻觉类型(部分幻觉与完全幻觉)。