⏶8
ArtifactsBench:弥合LLM代码生成评估中的视觉交互鸿沟
发表
由
xxzcc 提交
作者: Chenchen Zhang, Yuhang Li, Can Xu, Jiaheng Liu, Ao Liu, Shihui Hu, Dengpeng Wu, Guanhua Huang, Kejiao Li, Qi Yi, Ruibin Xiong, Haotian Zhu, Yuanxing Zhang, Yuhao Jiang, Yue Zhang, Zenan Xu, Bohui Zhai, Guoxiang He, Hebin Li, Jie Zhao, Le Zhang, Lingyun Tan, Pengyu Guo, Xianshu Pang, Yang Ruan, Zhifeng Zhang, Zhonghu Wang, Ziyan Xu, Zuopu Yin, Wiggin Zhou, Chayse Zhou, Fengzong Lian
摘要
大型语言模型(LLM)的生成能力正在从静态代码迅速扩展到动态、交互式的视觉伪影。这一进展受限于一个关键的评估空白:现有基准侧重于算法正确性,却忽视了定义现代用户体验的视觉保真度和交互完整性。为了弥补这一空白,我们引入了ArtifactsBench,这是一个用于视觉代码生成自动化、多模态评估的新基准和范式。我们的框架通过程序化渲染每个生成的伪影,并通过时间截图捕捉其动态行为。这些视觉证据连同源代码,随后由一个作为评判者的多模态LLM(MLLM)进行评估,该MLLM通过细粒度、逐任务的检查清单严格指导,以确保全面且可复现的评分。我们构建了一个包含1,825个多样化任务的新基准,并评估了30多个领先的LLM。我们的自动化评估在与WebDev Arena(网页开发中人类偏好的黄金标准)的排名一致性方面达到了惊人的94.4%,并与人类专家获得了超过90%的成对一致性。这使得ArtifactsBench成为首个能够大规模可靠地自动化评估人类感知质量的框架。我们的分析提供了当前SOTA的高分辨率图谱,揭示了通用模型通常优于领域特定模型。我们开源了ArtifactsBench,包括基准、评估工具和基线结果,网址为https://artifactsbenchmark.github.io/,旨在为社区提供一个可扩展且准确的工具,以加速以用户为中心的生成模型的发展。




腾讯混元重磅发布 ArtifactsBench:迈向“所见即所得”的下一代代码生成评测标准
ArtifactsBench 旨在全面衡量大语言模型(LLM)在生成视觉丰富、可交互的动态代码制品方面的能力。随着AI代码生成进入新阶段,ArtifactsBench 的出现,为业界提供了一把精准的标尺,以评估和推动模型从“能写代码”到“写出高品质、用户体验友好的代码”的跨越。
直面挑战:为视觉与交互代码而生
传统的编程评测大多聚焦于算法的逻辑正确性,却忽视了现代应用中至关重要的视觉呈现和用户交互体验。ArtifactsBench 正是为了填补这一空白而设计。它包含 1,825个精心构建的任务,其广度与深度前所未有,覆盖了从静态网页组件、SVG数据可视化,到具有复杂交互逻辑的小游戏和管理系统等九大真实世界场景。所有任务均按难度分层,能够系统性地评估模型在不同复杂度下的视觉代码生成能力。
核心创新:全自动、多模态的评测流程
ArtifactsBench 的最大亮点在于其新颖的 多模态自动化评测范式。该流程首先通过程序化脚本与模型生成的视觉制品(如网页、应用)并同步录制屏幕截图与GIF动图。随后,这些富含动态过程的视觉材料,将连同任务要求一起,交由一个“多模态大模型裁判”(MLLM-as-Judge)进行评估。该裁判依据为每个任务量身定制的细粒度清单,进行全面、客观且可复现的打分。
价值验证:与人类专家的眼光高度一致
一个评测基准的价值,取决于其结论的权威性。为此,我们将 ArtifactsBench 的自动评测结果与广受认可的、完全由人工投票裁决的 WebDev Arena 进行了大规模对齐验证。结果显示,ArtifactsBench 的模型排名与人类专家的偏好排序一致性高达 94.4%。这一惊人的数据有力地证明,ArtifactsBench 的自动化评估流程能够高度可靠地替代传统的人工评测,成为衡量代码制品视觉与交互质量的黄金标准。
🌐 项目主页: https://artifactsbenchmark.github.io/
📄 论文: https://arxiv.org/abs/2507.04952
💻 代码: https://github.com/Tencent-Hunyuan/ArtifactsBenchmark
📬 联系方式: adamwzhang@tencent.com