⏶4
SridBench:图像生成模型科学研究插图绘制评测
发表
由
kaipeng 提交
作者: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou,
Kaipeng Zhang
摘要
近年来,人工智能驱动的图像生成取得了快速进展。早期的扩散模型侧重于感知质量,而像 GPT-4o-image 这样的新型多模态模型则整合了高级推理能力,提高了语义理解和结构组成。科学插图生成是这种演变的例证:与通用图像合成不同,它要求准确解释技术内容并将抽象概念转化为清晰、标准化的视觉效果。这项任务知识密度更高、劳动强度更大,通常需要数小时的手工工作和专业工具。以可控、智能的方式实现自动化将带来巨大的实际价值。然而,目前还没有基准来评估 AI 在这方面的能力。为了填补这一空白,我们推出了 SridBench,这是首个用于科学图表生成的基准。它包含从 13 个自然科学和计算机科学学科的顶尖科学论文中精心挑选的 1,120 个实例,通过人类专家和 MLLM 收集。每个样本都从六个维度进行评估,包括语义保真度和结构准确性。实验结果表明,即使是像 GPT-4o-image 这样的顶级模型也落后于人类表现,在文本/视觉清晰度和科学正确性方面存在普遍问题。这些发现强调了对更先进的推理驱动视觉生成能力的需求。
图像生成模型绘制科研插图基准测试