⏶130
构建和更好地理解视觉-语言模型:见解和未来方向
08月22日发表
04月12日由
Hugo Laurençon 提交

作者:
Hugo Laurençon,
Andrés Marafioti, Victor Sanh,
Léo Tronchon



摘要
视觉-语言模型 (VLM) 领域(以图像和文本作为输入并输出文本)正在迅速发展,并且尚未就开发管道的几个关键方面达成共识,包括数据、架构和训练方法。本文可以看作是构建 VLM 的教程。我们首先全面概述当前最先进的方法,重点介绍每种方法的优点和缺点,解决该领域的主要挑战,并为尚未充分探索的领域提出有希望的研究方向。然后,我们将逐步介绍构建 Idefics3-8B 的实际步骤,这是一个强大的 VLM,它显着优于其前身 Idefics2-8B,同时经过高效训练,完全基于开放数据集,并使用简单的管道。这些步骤包括创建 Docmatix,这是一个用于提高文档理解能力的数据集,其规模是以前可用数据集的 240 倍。我们发布了模型以及为其训练创建的数据集。
https://huggingface.co/HuggingFaceM4/Idefics3-8B-Llama3