DITING:用于基准测试网络小说翻译的多代理评估框架

发表
zezzez 提交
作者: zezEnze Zhang, Jiaying WangJiaying Wang, Mengxi XiaoMengxi Xiao, Liu jifeiJifei Liu, Ziyan KuangZiyan Kuang, Rui Dong, Eric Dong, Sophia Ananiadou, Min Peng, Qianqian Xie

摘要

AI 生成总结
介绍了一种新的评估框架DITING和一种由推理驱动的多主体评估框架AgentEval,用于评估网络小说翻译的质量,研究表明中文训练的大模型在翻译质量上优于更大的外国模型。
大型语言模型(LLM)在机器翻译(MT)方面取得了显著的进展,但它们在翻译网络小说方面的效果仍不清楚。现有的基准测试依赖于表面指标,未能捕捉该类型小说的独有特征。为了弥补这些不足,我们推出了 DITING,这是首个用于网络小说翻译的全面评估框架,它通过六个维度评估叙事和文化保真度:习语翻译、词义歧义、术语本地化、时态一致性、零代词指代消解和文化安全性,并得到了超过 18,000 对专家标注的中英句子对的支持。我们进一步提出了 AgentEval,一个驱动推理的多智能体评估框架,通过模拟专家讨论来评估超出词汇重叠的翻译质量,在七种经过测试的自动度量标准中与人类判断的相关性最高。为了实现度量标准的可比性,我们开发了 MetricAlign,一个包含 300 个句子对的元评估数据集,并附有错误标签和标量质量分数。对 14 个开放、封闭和商业模型的全面评估表明,在中国训练的 LLM 的表现优于规模更大的外国模型,并且 DeepSeek-V3 提供了最忠实、风格最连贯的翻译。我们的工作为探索基于 LLM 的网络小说翻译奠定了新的范式,并提供了公共资源以推动未来的研究。
查看 arXiv 页面查看 PDF

评论

zezzez
论文作者
论文提交者

image-20251013222210413