⏶4
MLLM 作为 UI 裁判:对多模态 LLM 进行基准测试,以预测人类对用户界面的感知
发表
由
Franck Dernoncourt 提交
作者: Reuben A. Luera, Ryan Rossi,
Franck Dernoncourt, Samyadeep Basu, Sungchul Kim, Subhojyoti Mukherjee, Puneet Mathur, Ruiyi Zhang, Jihyung Kil, Nedim Lipka, Seunghyun Yoon, Jiuxiang Gu, Zichao Wang, Cindy Xiong Bearfield, Branislav Kveton
摘要
在理想的设计流程中,用户界面(UI)设计与用户研究相结合来验证决策,
然而研究在早期探索阶段通常受到资源限制。
多模态大型语言模型(MLLMs)的最新进展提供了一个有前景的机会,
可以充当早期评估者,帮助设计师在正式测试前缩小选择范围。
与以往侧重于电子商务等狭窄领域的用户行为(例如点击或转化指标)的工作不同,
我们专注于跨不同界面的主观用户评估。
我们研究MLLMs在评估单个UI和比较它们时是否能够模仿人类偏好。
利用众包平台的数据,我们在30个界面上对GPT-4o、Claude和Llama进行了基准测试,
并考察了它们在多个UI因素上与人类判断的一致性。
我们的结果表明,MLLMs在某些维度上近似人类偏好,但在其他维度上存在差异,
这既突出了它们在补充早期用户体验研究方面的潜力,也指出了它们的局限性。
评论
论文作者
论文提交者
此评论已隐藏。