FullFront:贯穿完整前端工程工作流程的 MLLMs 基准测试

发表
Jiawei GuJiawei Gu 提交
作者: Haoyu SunHaoyu Sun, Huichen Will Wang, Jiawei GuJiawei Gu, Linjie Li, Yu ChengYu Cheng

摘要

前端工程涉及复杂的工作流程,工程师在此过程中构思设计,将其转化为代码,并迭代优化实现。虽然近期的基准测试主要侧重于将视觉设计转换为代码,但我们提出了 FullFront,这是一个旨在评估多模态大型语言模型(MLLM)在整个前端开发流程中的能力的基准测试。FullFront 评估了三个直接对应前端工程流程的基本任务:网页设计(概念化阶段)、网页感知问答(理解视觉组织和元素)和网页代码生成(实现阶段)。与使用抓取网站(代码臃肿)或过度简化的 LLM 生成的 HTML 的现有基准测试不同,FullFront 采用一种新颖的两阶段流程,将真实世界的网页转换为干净、标准化的 HTML,同时保持多样的视觉设计并避免版权问题。对最先进 MLLM 进行的广泛测试揭示了其在页面感知、代码生成(特别是图像处理和布局)以及交互实现方面的显著局限性。我们的结果定量展示了模型和任务之间的性能差异,并突显了当前 MLLM 能力与前端工程领域的人类专家表现之间的巨大差距。FullFront 基准测试和代码可在 https://github.com/Mikivishy/FullFront 获取。
查看 arXiv 页面查看 PDF

评论

Jiawei GuJiawei Gu
论文作者
论文提交者

FullFront 是一个用于评估多模态大语言模型 (MLLMs) 涵盖整个前端工程工作流程的综合性基准。