⏶24
生成式通用验证器作为多模态元推理器
发表
由
taesiri 提交

作者:
Xinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang

摘要
AI 生成总结
Generative Universal Verifier 通过 ViVerBench、OmniVerifier-7B 和 OmniVerifier-TTS 提供可靠的视觉验证,增强多模态推理能力,改进生成和精炼能力。我们引入了生成式通用验证器(Generative Universal Verifier),这是一个新颖的概念和插件,专为下一代多模态推理视觉语言模型和统一多模态模型设计,在推理和生成过程中提供了对视觉结果进行反思和精炼的基本能力。这项工作做出了三项主要贡献:(1) 我们构建了ViVerBench,一个包含16个关键任务类别的综合基准,用于评估多模态推理中的视觉结果。结果表明,现有的VLMs在这些任务上始终表现不佳,这凸显了在可靠视觉验证方面与人类水平能力之间存在巨大差距。(2) 我们设计了两个自动化流水线来构建大规模视觉验证数据,并训练了OmniVerifier-7B,这是第一个专为通用视觉验证而训练的全能生成式验证器,并在ViVerBench上取得了显著的进步(+8.3)。通过训练,我们识别出视觉验证中的三个原子能力,并展示了它们如何协同泛化和交互。(3) 我们提出了OmniVerifier-TTS,一种序列化测试时缩放范式,它利用通用验证器在统一模型中弥合图像生成和编辑之间的差距,通过迭代精细优化来提升生成能力的上限。除了生成之外,我们将通用验证器扩展到更广泛的世界模型交织推理场景。在实验中,OmniVerifier-TTS在T2I-ReasonBench(+3.7)和GenEval++(+4.3)上取得了改进,性能优于现有的并行测试时缩放方法,如Best-of-N。通过为多模态推理赋予可靠的视觉验证能力,OmniVerifier在生成过程中的可靠反思和可扩展的测试时精炼方面都取得了进步,标志着迈向更值得信赖和可控的下一代推理系统迈出了重要一步。
我们引入了通用生成验证器(Generative Universal Verifier),这是一个新颖的概念和插件,专为下一代多模态推理的视觉语言模型和统一多模态模型设计,提供了在推理和生成过程中对视觉结果进行反思和精炼的基本能力。这项工作有三个主要贡献:(1)我们构建了 ViVerBench,一个包含 16 类关键任务的综合基准,用于评估多模态推理中的视觉结果。结果表明,现有的 VLM 在这些任务上的表现持续不佳,凸显了与人类在可靠视觉验证方面的能力存在巨大差距。(2)我们设计了两个自动化流水线来构建大规模视觉验证数据,并训练了 OmniVerifier-7B,这是第一个为通用视觉验证而训练的、全能型的生成验证器,在 ViVerBench 上取得了显著的提升(+8.3)。通过训练,我们识别了视觉验证中的三个原子能力,并展示了它们如何协同泛化和互动。(3)我们提出了 OmniVerifier-TTS,一种顺序测试时间缩放范式,它利用通用验证器在统一模型中连接图像生成和编辑,通过迭代的细粒度优化来提高生成能力的上限。除了生成之外,我们还将通用验证器扩展到更广泛的世界模型交织推理场景。在实践中,OmniVerifier-TTS 在 T2I-ReasonBench(+3.7)和 GenEval++(+4.3)上取得了改进,优于现有的并行测试时间缩放方法,如 Best-of-N。通过为多模态推理赋予可靠的视觉验证能力,OmniVerifier 促进了生成过程中的可靠反思和可扩展的测试时间精炼,标志着向更值得信赖和可控的下一代推理系统迈进了一步。