⏶4
Visual-TableQA:开放域表格图像推理基准
发表
由
Marc HARAOUI 提交

作者:
Boammani Aser Lompo,
Marc Haraoui


摘要
AI 生成总结
Visual-TableQA 是一个大规模、开放领域的数据集,用于评估对复杂表格数据的视觉推理能力,该数据集是使用涉及多个推理 LLM 的模块化流水线生成的。对表格等结构化数据进行视觉推理是现代视觉语言模型 (VLM) 的一项关键能力,但目前的基准测试在规模、多样性或推理深度方面仍然有限,尤其是在渲染的表格图像方面。为了弥补这一差距,我们提出了 Visual-TableQA,这是一个大规模、开放域的多模态数据集,专门用于评估和增强对复杂表格数据的视觉推理能力。我们的生成流程模块化、可扩展且完全自主,涉及多个推理 LLM 跨越不同角色进行协作:生成、验证和启发。Visual-TableQA 包含 2.5k 个结构丰富的 LaTeX 渲染表格和 6k 个推理密集型的 QA 对,所有这些都以低于 100 美元的价格生成。为了促进多样性和创造性,我们的流程通过跨模型提示(“启发”)和 LLM-陪审员过滤执行多模型协作数据生成。更强大的模型设定了布局和主题,更弱的模型进行细化,共同将多样的推理模式和视觉结构提炼到数据集中。实证结果表明,在 Visual-TableQA 上微调的模型能够稳健地泛化到外部基准测试,尽管数据集是合成的,但其性能优于一些专有模型。完整的流程和资源可在 https://github.com/AI-4-Everyone/Visual-TableQA 公开获取。
"在表格等结构化数据上进行视觉推理是现代视觉语言模型(VLM)的一项关键能力,但目前的基准测试在规模、多样性或推理深度方面仍然有限,尤其是在渲染的表格图像方面。为了弥补这一差距,我们推出了 Visual-TableQA,这是一个大规模、开放域的多模态数据集,专门用于评估和增强复杂表格数据的视觉推理能力。我们的生成流程模块化、可扩展且完全自动化,涉及多个推理语言模型(LLM)跨不同角色协作:生成、验证和启发。Visual-TableQA 包含 2.5k 个结构丰富的 LaTeX 渲染表格和 6k 个推理密集型问答对,所有这些都以低于 100 美元的成本生成。为了促进多样性和创造力,我们的流程通过跨模型提示('启发')和 LLM 陪审团过滤进行多模型协作数据生成。更强大的模型为较弱的模型种子布局和主题,使其能够进行阐述,从而共同将多样化的推理模式和视觉结构提炼到数据集中。实证结果表明,在 Visual-TableQA 上进行微调的模型能够很好地泛化到外部基准测试,尽管数据集是合成的,但其性能优于多个专有模型。完整的流程和资源可在 https URL 上公开获取。"