SAIL-Embedding 技术报告:全模态嵌入基础模型

发表
taesiritaesiri 提交
作者: Lin Lin, Jiefeng Long, Zhihe Wan, Yuchi Wang, Dingkang Yang, Shuang Yang, Yueyang Yao, Xu Chen, Zirui Guo, Shengqiang Li, Weiran Li, Hanyu Li, Yaling Mou, Yan Qiu, Haiyang Yu, Xiao Liang, Hongsheng Li, Chao Feng

摘要

多模态嵌入模型旨在产生信息丰富的统一表示,以支持各种跨模态任务。尽管从 CLIP 风格的双塔架构演变到大型视觉语言模型取得了令人鼓舞的进展,但先前的工作在实际应用和商业场景中仍面临着固有的挑战,例如有限的模态支持、不稳定的训练机制以及行业领域差距。在这项工作中,我们推出了 SAIL-Embedding,一个通用模态嵌入基础模型,它通过定制的训练策略和架构设计来解决这些问题。在优化过程中,我们提出了一种多阶段训练方案来提升表示学习的多方面有效性。具体来说,内容感知渐进式训练旨在增强模型对各种下游任务的适应性,并掌握丰富的跨模态能力。协作感知推荐增强训练通过从序列到项和 ID 到项的嵌入中提取知识,同时挖掘用户历史兴趣,进一步使多模态表示适应推荐场景。同时,我们开发了随机特化和数据集驱动的模式匹配,以增强模型的训练灵活性和泛化能力。实验结果表明,SAIL-Embedding 在不同的检索任务中取得了与其他方法相比 SOTA 的性能。在我们模型集成的各种现实场景的在线实验中,我们观察到生命周期(LT)显著增加,这是推荐体验的关键指标。例如,在抖音精选场景中,该模型提供了 +0.158% 的 7 天 LT 增益和 +0.144% 的 14 天 LT 增益。对于抖音信息流排序模型,SAIL-Embedding 产生的匹配特征带来了 +0.08% 的 AUC 增益。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

多模态嵌入模型旨在产生信息丰富的统一表示,以赋能多样化的跨模态任务。尽管从 CLIP 双塔架构演变到大型视觉语言模型取得了令人瞩目的进展,但现有工作在实际应用和业务场景中仍面临不可避免的挑战,例如有限的模态支持、不稳定的训练机制以及行业领域差距。在这项工作中,我们介绍了 SAIL-Embedding,一个全模态嵌入基础模型,它通过定制的训练策略和架构设计解决了这些问题。在优化过程中,我们提出了一种多阶段训练方案来增强表示学习的多方面有效性。具体来说,内容感知渐进式训练旨在提高模型对多样化下游任务的适应性,并掌握丰富的跨模态能力。协作感知推荐增强训练通过从序列到项目(sequence-to-item)和 ID 到项目(ID-to-item)嵌入中提取知识,同时挖掘用户历史兴趣,从而使多模态表示适应推荐场景。同时,我们开发了随机专业化(stochastic specialization)和数据集驱动的模式匹配(dataset-driven pattern matching)来增强模型的训练灵活性和泛化能力。实验结果表明,SAIL-Embedding 在不同的检索任务中取得了比其他方法更优的 SOTA 性能。在我们集成该模型的各种实际场景中的在线实验中,我们观察到生命周期(LT)的显著增加,这是衡量推荐体验的关键指标。例如,在 Douyin-Selected 场景中,该模型带来了 +0.158% 的 7 天 LT 增益和 +0.144% 的 14 天 LT 增益。对于 Douyin feed rank 模型,SAIL-Embedding 生成的匹配特征带来了 +0.08% 的 AUC 增益。