DialectGen:用于多模态生成中方言鲁棒性的基准测试和改进

发表
Haikang DengHaikang Deng 提交
作者: Yu ZhouYu Zhou, Sohyun An, Haikang DengHaikang Deng, Da Yin, Clark Peng, Cho-Jui Hsieh, Kai-Wei Chang, Nanyun Peng

摘要

AI 生成总结
一个新的基准和基于编码器的缓解策略提高了多模态生成模型在方言文本输入上的性能,而不会降低在标准美国英语上的性能。
英语等接触语言在形式上表现出丰富的区域变异,即方言,而方言使用者经常与生成模型互动。然而,多模态生成模型能否在给定方言文本输入的情况下有效生成内容?在本工作中,我们通过构建一个涵盖六种常见英语方言的新型大规模基准来研究这个问题。我们与方言使用者合作收集和验证了超过 4200 个独特的提示,并对 17 个图像和视频生成模型进行了评估。我们的自动和人工评估结果表明,当前最先进的多模态生成模型在提示中使用单个方言词时,性能会下降 32.26% 至 48.17%。常见的缓解方法,如微调和提示重写,只能使方言性能提高很小的幅度(<7%),同时可能会导致标准美国英语(SAE)性能显著下降。为此,我们设计了一种通用的基于编码器的多模态生成模型缓解策略。我们的方法教会模型识别新的方言特征,同时保持 SAE 性能。在 Stable Diffusion 1.5 等模型上的实验表明,我们的方法能够同时将五种方言的性能提高到与 SAE 相当的水平(+34.4%),同时对 SAE 性能几乎没有成本。
查看 arXiv 页面查看 PDF

评论

Haikang DengHaikang Deng
论文作者
论文提交者

英语等接触性语言表现出丰富的地区性变体,即方言,而方言使用者在与生成模型互动时常常会用到它们。然而,多模态生成模型能否在给定方言文本输入的情况下有效地生成内容?在这项工作中,我们通过构建一个涵盖六种常见英语方言的新型大规模基准来研究这个问题。我们与方言使用者合作收集并验证了超过 4200 个独特提示,并在 17 个图像和视频生成模型上进行了评估。我们的自动和人工评估结果表明,当提示中使用单个方言词汇时,当前最先进的多模态生成模型性能会下降 32.26% 至 48.17%。常见的缓解方法,如微调和提示重写,只能小幅提高方言性能(< 7%),同时可能会导致标准美式英语 (SAE) 的性能显著下降。为此,我们设计了一种通用的基于编码器的缓解策略,用于多模态生成模型。我们的方法教会模型识别新的方言特征,同时保留 SAE 性能。在 Stable Diffusion 1.5 等模型上的实验表明,我们的方法能够同时将五种方言的性能提升至与 SAE 相当的水平(+34.4%),同时对 SAE 性能几乎没有影响。