理解并减轻图像-文本预训练数据集中的毒性:LLaVA 的案例研究

发表
KarthikKarthik 提交
作者: KarthikKarthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam

摘要

预训练数据集是多模态模型发展的基础,然而,它们通常包含源自其抓取的网络规模语料库中的固有偏见和有害内容。在本文中,我们研究了 LLaVA 图像-文本预训练数据集中有害内容的普遍性,考察了有害内容在不同模态中的表现形式。我们对常见有害内容类别进行了全面分析,并提出了有针对性的缓解策略,最终创建了一个经过净化的、有害内容已缓解的数据集。该数据集移除了 LLaVA 预训练数据集中的 7,531 个有害图像-文本对。我们提供了实施稳健有害内容检测流程的指导意见。我们的发现强调了主动识别和过滤有害内容——例如仇恨言论、露骨图像和定向骚扰——以构建更负责任、更公平的多模态系统的必要性。该有害内容已缓解的数据集是开源的,并可用于进一步研究。
查看 arXiv 页面查看 PDF

评论

KarthikKarthik
论文作者
论文提交者

已被 ReGenAI CVPR2025 研讨会接收,作为口头报告