⏶5
大型语言模型仅通过阅读就能隐式学习看和听
发表
由
Prateek Verma 提交
作者: Prateek Verma, Mert Pilanci
摘要
本文提出了一个引人入胜的发现:通过在文本 token 上训练自回归 LLM 模型,文本模型在内部固有地发展了理解图像和音频的能力,从而仅通过阅读就发展出了“看”和“听”的能力。流行的音频和视觉 LLM 模型通过微调文本 LLM 模型,使其能够根据图像和音频嵌入给出文本输出。另一方面,我们的架构将图像块、音频波形或 token 作为输入。它为我们提供了通常在分类流程中的嵌入或类别标签。我们在 FSD-50K 和 GTZAN 数据集上展示了文本权重在辅助音频分类中的通用性。此外,我们还在 CIFAR-10 和 Fashion-MNIST 数据集上展示了其在图像分类以及图像块上的表现。这进一步推动了文本 LLM 学习强大内部电路的概念,这些电路可以通过激活必要的连接用于各种应用,而不是每次都从头开始训练模型。
本文提出一个引人入胜的发现:通过在文本标记上训练自回归 LLM 模型,该文本模型内在地发展出理解图像和音频的能力,从而仅通过阅读就获得了“看”和“听”的能力。流行的音频和视觉 LLM 模型通常通过微调文本 LLM 模型,使其根据图像和音频嵌入生成文本输出。另一方面,我们的架构接受图像块、音频波形或标记作为输入。它提供典型的分类流程中的嵌入或类别标签。我们展示了文本权重在 FSD-50K 和 GTZAN 数据集上辅助音频分类的通用性。此外,我们还展示了其在 CIFAR-10 和 Fashion-MNIST 图像分类以及图像块上的效果。这进一步推进了文本 LLM 学习强大内部电路的概念,这些电路可以通过激活各种应用所需的连接来加以利用,而不是每次都从头开始训练模型。