⏶2
从标注者(不)一致性视角看机器翻译的无监督词级质量评估
发表
由
Gabriele Sarti 提交

作者:
Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza

摘要
词级别质量评估 (WQE) 旨在自动识别机器翻译输出中的细粒度错误片段,并已有很多用途,包括在译后编辑期间协助译者。现代 WQE 技术通常成本较高,涉及大型语言模型 (LLM) 的提示或在大量人工标注数据上进行专门训练。在这项工作中,我们研究了高效的替代方法,利用语言模型可解释性和不确定性量化方面的最新进展,从翻译模型的内部工作机制中识别翻译错误。在涵盖 12 个翻译方向上的 14 个指标的评估中,我们通过使用多组人工标注数据来量化人工标注差异对指标性能的影响。我们的结果突出了无监督指标的未开发潜力、监督方法在面对标注不确定性时的不足以及单标注者评估实践的脆弱性。


我们利用语言模型可解释性和不确定性量化方面的最新进展,从翻译模型的内部工作机制中识别翻译错误。
代码: https://github.com/gsarti/labl/tree/main/examples/unsup_wqe
预计算指标: https://huggingface.co/datasets/gsarti/unsup_wqe_metrics