⏶14

FullFront：贯穿完整前端工程工作流程的 MLLMs 基准测试

05月23日发表

05月26日由 Jiawei Gu 提交

作者: Haoyu Sun, Huichen Will Wang, Jiawei Gu, Linjie Li, Yu Cheng

摘要

前端工程涉及复杂的工作流程，工程师在此过程中构思设计，将其转化为代码，并迭代优化实现。虽然近期的基准测试主要侧重于将视觉设计转换为代码，但我们提出了 FullFront，这是一个旨在评估多模态大型语言模型（MLLM）在整个前端开发流程中的能力的基准测试。FullFront 评估了三个直接对应前端工程流程的基本任务：网页设计（概念化阶段）、网页感知问答（理解视觉组织和元素）和网页代码生成（实现阶段）。与使用抓取网站（代码臃肿）或过度简化的 LLM 生成的 HTML 的现有基准测试不同，FullFront 采用一种新颖的两阶段流程，将真实世界的网页转换为干净、标准化的 HTML，同时保持多样的视觉设计并避免版权问题。对最先进 MLLM 进行的广泛测试揭示了其在页面感知、代码生成（特别是图像处理和布局）以及交互实现方面的显著局限性。我们的结果定量展示了模型和任务之间的性能差异，并突显了当前 MLLM 能力与前端工程领域的人类专家表现之间的巨大差距。FullFront 基准测试和代码可在 https://github.com/Mikivishy/FullFront 获取。

查看 arXiv 页面查看 PDF

Jiawei Gu

论文作者

论文提交者

FullFront 是一个用于评估多模态大语言模型 (MLLMs) 涵盖整个前端工程工作流程的综合性基准。

FullFront：贯穿完整前端工程工作流程的 MLLMs 基准测试

摘要

评论