Turk-LettuceDetect: 土耳其 RAG 应用的幻觉检测模型

发表
Mahmud ElHuseyni 🇵🇸Mahmud ElHuseyni 🇵🇸 提交
作者: SELVA TAŞSelva Taş, Mahmud ElHuseyni 🇵🇸Mahmut El Huseyni, Özay EzerceliÖzay Ezerceli, Reyhan BayraktarReyhan Bayraktar, Betül TerzioğluFatma Betül Terzioğlu

摘要

AI 生成总结
Turk-LettuceDetect 是一套用于土耳其 RAG 应用的幻觉检测模型,它在机器翻译的 RAGTruth 数据集上使用了微调的编码器架构,实现了高性能。
大型语言模型(LLMs)的广泛采用因其容易出现幻觉(生成看似合理但事实不正确的信息)而受到阻碍。虽然检索增强生成(RAG)系统试图通过将响应 grounding 在外部知识上来解决这个问题,但幻觉仍然是一个持续的挑战,尤其是在形态复杂、低资源的土耳其语等语言中。本文介绍了 Turk-LettuceDetect,这是第一个专门为土耳其语 RAG 应用设计的幻觉检测模型套件。在 LettuceDetect 框架的基础上,我们将幻觉检测构建为一种令牌级分类任务,并微调了三种不同的编码器架构:土耳其语专用的 ModernBERT、TurkEmbed4STS 和多语言 EuroBERT。这些模型在一个包含 17,790 个跨问答、数据到文本生成和摘要任务实例的机器翻译版本的 RAGTruth 基准数据集上进行了训练。我们的实验结果表明,基于 ModernBERT 的模型在完整测试集上取得了 0.7266 的 F1 分数,在结构化任务上表现尤为出色。这些模型在保持计算效率的同时支持高达 8,192 个令牌的长上下文,使其适合实时部署。比较分析表明,尽管最先进的 LLMs 表现出高召回率,但由于幻觉内容的过度生成,它们的精度较低,这凸显了专门的检测机制的必要性。通过发布我们的模型和翻译数据集,这项工作解决了多语言 NLP 中的一个关键差距,并为开发更可靠、更值得信赖的土耳其语及其他语言的 AI 应用奠定了基础。
查看 arXiv 页面查看 PDF

评论

Mahmud ElHuseyni 🇵🇸Mahmud ElHuseyni 🇵🇸
论文作者
论文提交者

Turk-LettuceDetect,首套专门为土耳其 RAG 应用设计的幻觉检测模型。基于 LettuceDetect 框架,我们将幻觉检测形式化为一种 token 级分类任务,并对三种不同的编码器架构进行了微调:一种土耳其语特定的 ModernBERT、TurkEmbed4STS 和多语言 EuroBERT。这些模型在包含 17,790 个问答、数据到文本生成和摘要任务实例的 RAGTruth 基准数据集的机器翻译版本上进行了训练。