⏶1
Diffusion-Link:用于弥合音频-文本模态差距的扩散概率模型
发表
由
Kihyun Nam 提交
作者:
KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
摘要
AI 生成总结
Diffusion-Link 是一个基于扩散的模态桥接模块,它缩小了音频-文本模态差距,并增强了多模态编码器与 LLM 的耦合,在自动音频字幕生成方面取得了最先进的性能。对比音频-语言预训练可以产生强大的联合表示,但持续的音频-文本模态差距限制了多模态编码器与大型语言模型(LLMs)耦合的好处。我们提出了 Diffusion-Link,一种基于扩散的模态桥接模块,可以将音频嵌入生成性地映射到文本嵌入分布。该模块在冻结的多模态编码器的输出嵌入处进行训练,并实现为一个具有三个残差 MLP 块的轻量级网络。为了评估 Diffusion-Link 对多模态编码器-LLM 耦合的影响,我们在自动音频字幕(AAC)上进行评估;据我们所知,这是基于扩散的模态桥接首次应用于 AAC。我们报告了两项结果。(1)模态差距分析:在相似性和几何标准上,Diffusion-Link 在现有基于扩散的方法中最大程度地减小了模态差距,并显示出音频嵌入向文本分布的集体迁移。(2)下游 AAC:将 Diffusion-Link 连接到相同的多模态 LLM 基线,在零样本和全监督字幕方面,在 AudioCaps 上均取得了最先进的性能,无需外部知识,相对增益分别高达 52.5% 和 7.5%。这些发现表明,弥合模态差距对于多模态编码器和 LLMs 之间的有效耦合至关重要,而基于扩散的模态桥接为超越以知识检索为中心的设计提供了一个有前途的方向。代码将在接受后发布 https://github.com/DevKiHyun/Diffusion-Link
评论
论文作者
论文提交者