RealUnify:统一模型是否真正受益于统一?一项综合基准测试

发表
Yang ShiYang Shi 提交
作者: Yang ShiYang Shi, Yuhao DongYuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong ChenXinlong Chen, Chengzhuo Tong, Bozhou LiBozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu

摘要

AI 生成总结
RealUnify 评估了统一多模态模型中理解与生成之间的双向协同作用,揭示了尽管当前模型在架构上实现了统一,但在集成方面仍显不足。
视觉理解和生成集成到统一的多模态模型中代表了迈向通用人工智能的重大一步。然而,现有的基准尚未回答一个基本问题:这种架构统一是否真的实现了构成能力之间的协同作用?现有的评估范式主要独立评估理解和生成,不足以确定统一模型是否可以利用其理解来增强其生成,或者使用生成模拟来促进更深入的理解。为了解决这一关键差距,我们提出了 RealUnify,一个专门设计用于评估双向能力协同作用的基准。RealUnify 包含 1,000 个精心进行人工标注的实例,涵盖 10 个类别和 32 个子任务。它围绕两个核心轴构建:1) 理解增强生成,这需要推理(例如,常识、逻辑)来指导图像生成;2) 生成增强理解,这需要心智模拟或重建(例如,对转换或失序的视觉输入)来解决推理任务。一个关键的贡献是我们的双重评估协议,它结合了直接的端到端评估和诊断性的分步评估,将任务分解为不同的理解和生成阶段。该协议使我们能够精确区分性能瓶颈是源于核心能力的不足还是整合它们的失败。通过对 12 个领先的统一模型和 6 个专业基线进行大规模评估,我们发现当前的统一模型仍然难以实现有效的协同作用,这表明仅靠架构统一是不够的。这些结果突显了需要新的训练策略和归纳偏置来充分释放统一建模的潜力。
查看 arXiv 页面查看 PDF

评论

Yang ShiYang Shi
论文作者
论文提交者

将视觉理解和生成集成到统一的多模态模型中,代表了迈向通用人工智能的重要一步。然而,现有基准未能回答一个根本问题:这种架构上的统一是否真正实现了组成能力之间的协同交互?现有的评估范式主要孤立地评估理解和生成,不足以确定统一模型是否可以利用其理解来增强其生成,或者使用生成模拟来促进更深入的理解。为了弥补这一关键差距,我们引入了 RealUnify,一个专门设计用于评估双向能力协同作用的基准。RealUnify 包含 1,000 个精心进行人工标注的实例,涵盖 10 个类别和 32 个子任务。它围绕两个核心轴构建:1) 理解增强生成 (Understanding Enhances Generation),这需要推理(例如,常识、逻辑)来指导图像生成;2) 生成增强理解 (Generation Enhances Understanding),这需要心智模拟或重构(例如,变换或混乱的视觉输入)来解决推理任务。一项关键贡献是我们的双评估协议,它结合了直接的端到端评估和诊断性的分步评估,将任务分解为独立的理解和生成阶段。该协议使我们能够精确地区分性能瓶颈是源于核心能力不足还是整合失败。通过对 12 个领先的统一模型和 6 个专用基线进行大规模评估,我们发现当前的统一模型仍然难以实现有效的协同作用,这表明仅靠架构统一是不够的。这些结果凸显了需要新的训练策略和归纳偏差来充分释放统一建模的潜力。