⏶130

构建和更好地理解视觉-语言模型：见解和未来方向

08月22日发表

04月12日由

Hugo Laurençon 提交

作者:

Hugo Laurençon, Andres Marafioti

Andrés Marafioti, Victor Sanh, Leo Tronchon

Léo Tronchon

摘要

视觉-语言模型 (VLM) 领域（以图像和文本作为输入并输出文本）正在迅速发展，并且尚未就开发管道的几个关键方面达成共识，包括数据、架构和训练方法。本文可以看作是构建 VLM 的教程。我们首先全面概述当前最先进的方法，重点介绍每种方法的优点和缺点，解决该领域的主要挑战，并为尚未充分探索的领域提出有希望的研究方向。然后，我们将逐步介绍构建 Idefics3-8B 的实际步骤，这是一个强大的 VLM，它显着优于其前身 Idefics2-8B，同时经过高效训练，完全基于开放数据集，并使用简单的管道。这些步骤包括创建 Docmatix，这是一个用于提高文档理解能力的数据集，其规模是以前可用数据集的 240 倍。我们发布了模型以及为其训练创建的数据集。

查看 arXiv 页面查看 PDF

Hugo Laurençon

论文作者

论文提交者

https://huggingface.co/HuggingFaceM4/Idefics3-8B-Llama3