FineVision:开放数据就足够了

发表
taesiritaesiri 提交
作者: Luis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andrés Marafioti

摘要

AI 生成总结
FineVision,一个大规模且经过精心策划的数据集,通过严格的数据收集、去重和人工监督来增强视觉语言模型,从而提高性能。
视觉语言模型(VLMs)的发展受到由不一致且受污染的公共数据集组成的碎片化格局的阻碍。我们引入FineVision,一个精心收集、整理和统一的语料库,包含2400万个样本——这是同类产品中最大的开放资源。我们通过一个半自动化的、人工参与的流程将200多个来源统一为185个子集:自动化执行批量摄取和模式映射,而审稿人审核映射并抽查输出,以验证注释的忠实消耗、适当的格式和多样性以及安全性;问题会触发有针对性的修复和重新运行。该流程进一步在源内部和源之间应用严格的去重,并针对66个公共基准进行去污。FineVision还包含具有统一动作空间的智能/GUI任务;审稿人验证模式并检查样本轨迹以确认可执行性。在FineVision上训练的模型在广泛的评估套件中始终优于在现有开放混合物上训练的模型,这突显了规模、数据卫生以及自动化与人工监督的平衡的好处。我们发布了该语料库和策展工具,以加速数据驱动的VLM研究。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

视觉语言模型 (VLM) 的进步受到不一致和污染的公共数据集的零散格局的阻碍。我们介绍了 FineVision,这是一个精心收集、整理和统一的语料库,包含 2400 万个样本——这是同类产品中最大的开放资源。我们通过一个半自动、人工参与的流程将 200 多个来源统一为 185 个子集:自动化执行批量摄取和模式映射,而审阅者审计映射并抽样检查输出来验证注释的忠实消耗、适当的格式和多样性以及安全性;问题会触发有针对性的修复和重新运行。该工作流程进一步在来源内部和来源之间进行严格的去重,并针对 66 个公共基准进行去污。FineVision 还包含具有统一动作空间的智能体/GUI 任务;审阅者验证模式并检查样本轨迹以确认可执行的保真度。在 FineVision 上训练的模型在广泛的评估套件上的表现始终优于在现有开放混合物上训练的模型,这强调了规模、数据卫生以及平衡的自动化与人工监督的好处。我们发布了语料库和策展工具,以加速数据中心 VLM 研究。