我们是否已经统一了图像生成和理解?对GPT-4o图像生成能力的实证研究

发表
cuijiaxingcuijiaxing 提交
作者: Ning Li, Jingran ZhangJingran Zhang, cuijiaxingJustin Cui

摘要

OpenAI 的多模态 GPT-4o 在图像生成和编辑方面表现出了卓越的能力,但其实现世界知识知情语义合成的能力——无缝集成领域知识、上下文推理和指令遵循——仍未得到证实。在本研究中,我们系统地评估了这些能力在三个关键维度上的表现:(1) 全局指令遵循,(2) 细粒度编辑精度,以及 (3) 生成后推理。虽然现有基准突出了 GPT-4o 在图像生成和编辑方面的强大能力,但我们的评估揭示了 GPT-4o 持久的局限性:该模型经常默认为指令的字面解释,不一致地应用知识约束,并在条件推理任务中挣扎。这些发现挑战了关于 GPT-4o 统一理解和生成能力的普遍假设,暴露了其动态知识集成方面的重大差距。我们的研究呼吁开发更强大的基准和训练策略,超越表面水平的对齐,强调上下文感知和基于推理的多模态生成。
查看 arXiv 页面查看 PDF
我们是否已经统一了图像生成和理解?对GPT-4o图像生成能力的实证研究

评论

cuijiaxingcuijiaxing
论文作者
论文提交者

OpenAI 的多模态 GPT-4o 在图像生成和编辑方面展示了卓越的能力,但其实现世界知识驱动的语义合成——无缝整合领域知识、上下文推理和指令遵循——的能力仍未得到证实。在本研究中,我们跨 三个关键维度 系统地评估了这些能力:(1)全局指令遵循,(2)细粒度编辑精度,以及(3)生成后推理。虽然现有的基准测试突出了 GPT-4o 在图像生成和编辑方面的强大能力,但我们的评估揭示了 GPT-4o 持久的局限性:该模型经常默认为指令的字面解释,不一致地应用知识约束,并在条件推理任务中挣扎。 这些发现挑战了关于 GPT-4o 统一理解和生成能力的主流假设,暴露了其动态知识整合方面的差距。我们的研究呼吁开发 更强大的基准测试 和训练策略,以超越表面水平的对齐,强调上下文感知和基于推理的多模态生成。

请查看我们的论文了解更多详情:https://arxiv.org/abs/2504.08003

all_figures.jpg