CS-Sum:语码转换对话摘要的基准以及大型语言模型的局限性

发表
Sathya KrishnanSathya Krishnan 提交
作者: Sathya KrishnanSathya Krishnan Suresh, Tanmay Surana, Lim Zhi Hao, Eng Siong Chng

摘要

语码转换 (CS) 对大型语言模型 (LLM) 提出了重大挑战,但其在 LLM 中的可理解性仍未得到充分探索。我们引入 CS-Sum,通过语码转换对话到英语摘要的方式来评估 LLM 对 CS 的可理解性。CS-Sum 是第一个用于评估普通话-英语 (EN-ZH)、泰米尔语-英语 (EN-TA) 和马来语-英语 (EN-MS) 语码转换对话摘要的基准,每个语言对包含 900-1300 个经过人工标注的对话。在评估了包括开源和闭源模型在内的十个 LLM 后,我们分析了少样本、翻译-摘要和微调(基于合成数据的 LoRA、QLoRA)等方法的性能。我们的发现表明,尽管自动化指标得分很高,但 LLM 会犯一些细微的错误,这些错误会改变对话的完整含义。为此,我们介绍了 LLM 在处理 CS 输入时最常见的 3 种错误类型。错误率因 CS 对和 LLM 而异,一些 LLM 在特定语言对上表现出更频繁的错误,这突显了对语码转换数据进行专门训练的必要性。
查看 arXiv 页面查看 PDF

评论

Sathya KrishnanSathya Krishnan
论文作者
论文提交者

当你在与 ChatGPT 或其他大语言模型 (LLM) 交谈时,在同一句话中混合使用多种语言——比如英语+普通话、马来语或泰米尔语——会发生什么?我们来自南洋理工大学 (NTU) 的论文 CS-Sum 现已发布在 arXiv 上。我们引入了首个多语言对话摘要基准,该基准针对对话者在对话中自然切换语言(即语码转换)的情况。每个语言对都有超过 900 个标注示例,我们评估了 10 个 LLM,结果显示即使是顶级模型也经常会误解、跳过关键信息或混淆说话者。如果你正在构建用于真实世界多语言场景的 AI——这篇论文可能对你有所帮助

Shakthi SShakthi S

这是真的太棒了!!