⏶4
HumaniBench:一个以人为中心的用于大型多模态模型评测的框架
发表
由
shaina 提交

作者:
Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

摘要
大型多模态模型(LMMs)目前在许多视觉语言基准测试上表现出色,然而,它们在公平性、道德、同理心和包容性等以人为中心的标准上仍然表现不足,而这些标准对于与人类价值观保持一致至关重要。我们引入了 HumaniBench,这是一个包含 3.2 万个真实世界图像问答对的全面基准测试,这些数据通过一个可扩展的 GPT4o 辅助流程进行标注,并由领域专家进行了全面验证。HumaniBench 评估了七个人本人工智能(HCAI)原则:公平性、道德、理解力、推理能力、语言包容性、同理心和鲁棒性,涵盖七种不同的任务,包括开放式和封闭式视觉问答(VQA)、多语言问答、视觉定位、同理心图像描述和鲁棒性测试。对 15 个最先进的 LMM(包括开源和闭源模型)进行的基准测试表明,专有模型通常表现领先,但鲁棒性和视觉定位仍然是它们的薄弱环节。一些开源模型也难以在准确性和遵循人本原则之间取得平衡。HumaniBench 是首个专门围绕 HCAI 原则构建的基准测试。它提供了一个严格的测试平台,用于诊断对齐差距,并引导 LMM 朝向既准确又对社会负责的行为。数据集、标注提示词和评估代码可在此处获取:https://vectorinstitute.github.io/HumaniBench
Humanibench