⏶1
AdamMeme: 自适应探测多模态大型语言模型对有害性的推理能力
发表
由
Hongzhan Lin 提交
作者: Zixin Chen, Hongzhan Lin, Kaixin Li, Ziyang Luo, Zhen Ye, Guang Chen, Zhiyong Huang, Jing Ma
摘要
在社交媒体时代,多模态模因(multimodal memes)的泛滥要求多模态大型语言模型(mLLMs)能够有效理解模因的有害性。现有评估mLLMs有害模因理解能力的基准测试依赖于使用静态数据集进行的、基于准确性的、模型无关的评估。然而,由于在线模因动态演变,这些基准测试在提供最新和全面评估方面存在局限性。为了解决这一问题,我们提出了AdamMeme,一个灵活的、基于智能体的评估框架,能够自适应地探究mLLMs在解读模因有害性方面的推理能力。通过多智能体协作,AdamMeme通过迭代更新具有挑战性的模因样本数据,从而提供全面的评估,揭示mLLMs在解释有害性方面存在的具体局限性。广泛的实验表明,我们的框架系统地揭示了不同目标mLLMs的性能差异,提供了对模型特有弱点的深入、细粒度分析。我们的代码可在https://github.com/Lbotirx/AdamMeme获取。
ACL 2025