⏶1

AdamMeme: 自适应探测多模态大型语言模型对有害性的推理能力

07月02日发表

07月10日由 Hongzhan Lin 提交

作者: Zixin Chen, Hongzhan Lin, Kaixin Li, Ziyang Luo, Zhen Ye, Guang Chen, Zhiyong Huang, Jing Ma

摘要

在社交媒体时代，多模态模因（multimodal memes）的泛滥要求多模态大型语言模型（mLLMs）能够有效理解模因的有害性。现有评估mLLMs有害模因理解能力的基准测试依赖于使用静态数据集进行的、基于准确性的、模型无关的评估。然而，由于在线模因动态演变，这些基准测试在提供最新和全面评估方面存在局限性。为了解决这一问题，我们提出了AdamMeme，一个灵活的、基于智能体的评估框架，能够自适应地探究mLLMs在解读模因有害性方面的推理能力。通过多智能体协作，AdamMeme通过迭代更新具有挑战性的模因样本数据，从而提供全面的评估，揭示mLLMs在解释有害性方面存在的具体局限性。广泛的实验表明，我们的框架系统地揭示了不同目标mLLMs的性能差异，提供了对模型特有弱点的深入、细粒度分析。我们的代码可在https://github.com/Lbotirx/AdamMeme获取。

查看 arXiv 页面查看 PDF

Hongzhan Lin

论文提交者

ACL 2025

AdamMeme: 自适应探测多模态大型语言模型对有害性的推理能力

摘要

评论