⏶94
缩放以语言为中心的全模态表示学习
发表
由
Chenghao Xiao 提交

作者:
Chenghao Xiao,
Hou Pong Chan,
Hao Zhang, Weiwen Xu, Mahani Aljunied,
Yu Rong



摘要
最近利用对比学习(CL)微调的多模态大型语言模型(MLLM)的嵌入方法取得了令人鼓舞的结果,但其优越性背后的根本原因仍未得到充分研究。这项工作认为,基于 MLLM 的方法的一个关键优势在于生成式预训练期间实现的隐式跨模态对齐,其中语言解码器学会利用共享表示空间中的多模态信号来生成单模态输出。通过对各向异性和核相似性结构的分析,我们实证确认了 MLLM 表示中出现了潜在对齐,允许 CL 作为一种轻量级的细化阶段。利用这一见解,我们提出了一个名为 LCO-Emb 的以语言为中心的通用嵌入框架。在跨越不同骨干网络和基准的广泛实验中,LCO-Emb 证明了其有效性,并在各种模态中取得了最先进的性能。此外,我们确定了一个生成-表示缩放定律(GRSL),表明通过对比细化获得的表示能力随着 MLLM 的生成能力呈正相关。这表明改进生成能力是提升表示质量的一种有效范式。我们对 GRSL 进行了理论解释,它将 MLLM 的生成质量与其表示性能的上限正式联系起来,并在具有挑战性的低资源视觉文档检索任务上进行了验证,表明在 CL 之前的持续生成式预训练可以进一步增强模型嵌入能力的潜力。代码、模型和资源可在 https://github.com/LCO-Embedding/LCO-Embedding 获取。
评论

论文作者
论文提交者
- 我们提出了 LCO-Embedding,一种以语言为中心的跨模态表示学习方法及其 LCO-Embedding 模型系列,在 MIEB(大规模图像嵌入基准)上取得了新的最先进水平,同时支持音频和视频。
- 我们提出了生成-表示缩放定律,并连接了模型的生成能力及其表示上限。
- 我们提出了 SeaDoc,一项针对东南亚语言的具有挑战性的视觉文档检索任务;并表明在对比学习之前进行连续生成预训练可以提高表示上限。