扩散模型 vs 自回归语言模型:文本嵌入视角

发表
siyue zhangsiyue zhang 提交
作者: siyue zhangSiyue Zhang, Yilun ZhaoYilun Zhao, Liyuan GengLiyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao

摘要

基于大型语言模型 (LLM) 的嵌入模型,受益于大规模预训练和后训练,已开始在文档检索等通用文本嵌入任务上超越基于 BERT 和 T5 的模型。然而,LLM 嵌入的一个根本局限性在于自回归预训练中使用的单向注意力,这与文本嵌入任务的双向性质不符。为此,我们提出采用扩散语言模型进行文本嵌入,这得益于它们固有的双向架构以及最近在推理任务上媲美或超越 LLM 的成功。我们首次对扩散语言嵌入模型进行了系统研究,该模型在长文档检索上比基于 LLM 的嵌入模型性能提高了 20%,在推理密集型检索上提高了 8%,在指令遵循检索上提高了 2%,并在传统文本嵌入基准测试中取得了具有竞争力的表现。我们的分析证实,双向注意力对于编码长文本和复杂文本中的全局上下文至关重要。
查看 arXiv 页面查看 PDF
扩散模型 vs 自回归语言模型:文本嵌入视角

评论

siyue zhangsiyue zhang
论文作者
论文提交者

想知道文本扩散模型 ✨产生的嵌入与自回归LLM 🦙产生的嵌入相比如何?隆重推出 DiffEmbed——一种基于扩散的嵌入模型,在长文档和推理密集型检索方面表现出色。