⏶7

Turk-LettuceDetect: 土耳其 RAG 应用的幻觉检测模型

09月22日发表

09月23日由 Mahmud ElHuseyni 🇵🇸 提交

作者: Selva Taş, Mahmud ElHuseyni 🇵🇸 Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu

摘要

AI 生成总结

Turk-LettuceDetect 是一套用于土耳其 RAG 应用的幻觉检测模型，它在机器翻译的 RAGTruth 数据集上使用了微调的编码器架构，实现了高性能。

大型语言模型（LLMs）的广泛采用因其容易出现幻觉（生成看似合理但事实不正确的信息）而受到阻碍。虽然检索增强生成（RAG）系统试图通过将响应 grounding 在外部知识上来解决这个问题，但幻觉仍然是一个持续的挑战，尤其是在形态复杂、低资源的土耳其语等语言中。本文介绍了 Turk-LettuceDetect，这是第一个专门为土耳其语 RAG 应用设计的幻觉检测模型套件。在 LettuceDetect 框架的基础上，我们将幻觉检测构建为一种令牌级分类任务，并微调了三种不同的编码器架构：土耳其语专用的 ModernBERT、TurkEmbed4STS 和多语言 EuroBERT。这些模型在一个包含 17,790 个跨问答、数据到文本生成和摘要任务实例的机器翻译版本的 RAGTruth 基准数据集上进行了训练。我们的实验结果表明，基于 ModernBERT 的模型在完整测试集上取得了 0.7266 的 F1 分数，在结构化任务上表现尤为出色。这些模型在保持计算效率的同时支持高达 8,192 个令牌的长上下文，使其适合实时部署。比较分析表明，尽管最先进的 LLMs 表现出高召回率，但由于幻觉内容的过度生成，它们的精度较低，这凸显了专门的检测机制的必要性。通过发布我们的模型和翻译数据集，这项工作解决了多语言 NLP 中的一个关键差距，并为开发更可靠、更值得信赖的土耳其语及其他语言的 AI 应用奠定了基础。

查看 arXiv 页面查看 PDF

Mahmud ElHuseyni 🇵🇸

论文作者

论文提交者

Turk-LettuceDetect，首套专门为土耳其 RAG 应用设计的幻觉检测模型。基于 LettuceDetect 框架，我们将幻觉检测形式化为一种 token 级分类任务，并对三种不同的编码器架构进行了微调：一种土耳其语特定的 ModernBERT、TurkEmbed4STS 和多语言 EuroBERT。这些模型在包含 17,790 个问答、数据到文本生成和摘要任务实例的 RAGTruth 基准数据集的机器翻译版本上进行了训练。

Turk-LettuceDetect: 土耳其 RAG 应用的幻觉检测模型

摘要

评论