⏶16
多语言大型语言模型中的语言手术
发表
由
Joanito Agili Lopo 提交

作者:
Joanito Agili Lopo,
Muhammad Ravi Shulthan Habibi,
Tack Hwa Wong, Muhammad Ilham Ghozali, Fajri Koto,
Genta Indra Winata, Peerat Limkonchotiwat, Alham Fikri Aji,
Samuel Cahyawijaya



摘要
大型语言模型(LLMs)在跨任务和跨语言方面展现出卓越的泛化能力,彻底改变了自然语言处理领域。本文研究了LLMs中自然涌现的表示对齐,特别是在中间层,及其对解耦语言特定信息和语言无关信息的意义。我们通过实证确认了这种对齐的存在,分析了其行为与显式设计的对齐模型的比较,并展示了其在不损害语义的情况下进行语言特定操作的潜力。基于这些发现,我们提出了一种新颖的方法——推理时语言控制(ITLC),它利用潜在注入来实现精确的跨语言控制并减轻LLMs中的语言混淆。我们的实验突出了ITLC强大的跨语言控制能力,同时在目标语言中保持了语义完整性。此外,我们证明了它在缓解跨语言混淆问题方面的有效性,该问题即使在当前的大规模LLMs中也依然存在,导致生成语言不一致。这项工作加深了我们对LLMs中表示对齐的理解,并提出了一种提高其跨语言性能的实用解决方案。
我们很高兴分享我们的最新工作,“多语言大型语言模型中的语言手术”。我们提出了一种名为推理时语言控制 (ITLC) 的方法,旨在增强大型语言模型 (LLM) 的跨语言控制并减轻语言混淆。ITLC 利用潜在注入 (latent injection) 在推理期间对特定语言信息进行精确操作,同时保持语义完整性。通过利用 LLM 中间层的表示对齐,ITLC 实现了零样本跨语言生成(平均 BLEU 为 10.70),减轻了语言混淆(LCPR 提高 2.7 倍,LPR 提高 4 倍),并允许在不影响意义的情况下进行特定语言的操作。主要贡献包括通过余弦相似度分析确认表示对齐,并为跨语言任务提供了一个实用的解决方案。ITLC 的应用包括实现零样本跨语言生成和确保一致的语言输出。
📖 论文:http://arxiv.org/abs/2506.12450
💻 代码:https://github.com/SEACrowd/itlc