⏶14
MMPB:多模态个性化时代来临
发表
由
Kim Jaeik 提交
作者:
Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
摘要
AI 生成总结
MMPB 是一个评估视觉语言模型在各种任务和概念中的个性化能力的基准,揭示了在保持一致性和适应用户偏好方面存在的重大挑战。在面向用户的AI系统中,例如智能家居和医疗保健,视觉个性化至关重要,在这些系统中,使模型行为与用户中心概念保持一致是关键。然而,尽管近期的视觉语言模型(VLMs)具有广泛的适用性,但它们在适应个体用户方面的能力仍未得到充分探索。在本文中,我们提出了MMPB,这是第一个用于评估VLM个性化能力的广泛基准。MMPB包含10k个图像-查询对,涵盖四个类别中的111个可个性化概念:人类、动物、物体和角色,其中人类类别通过偏好驱动的查询进行了丰富。我们将个性化结构化为三种主要任务类型,每种类型都突出了VLM的一个不同关键属性。我们使用包括开源和闭源模型在内的23个广泛使用的VLM,通过一个三阶段协议评估个性化性能:概念注入、多轮对话和个性化查询。我们的研究结果表明,大多数VLM(包括一些闭源模型)在个性化方面存在困难,特别是在保持对话一致性、处理用户偏好和适应视觉线索方面。我们的分析显示,VLM个性化方面的挑战(如拒绝行为和长上下文遗忘)表明有很大的改进空间。通过识别这些局限性并提供一个可扩展的基准,MMPB为未来实现真正个性化的多模态AI研究提供了宝贵的见解和坚实的基础。项目页面:aidaslab.github.io/MMPB
跨任务类型的个性化查询示例以及近期 VLMs 的代表性失败案例。