⏶3
理解并减轻图像-文本预训练数据集中的毒性:LLaVA 的案例研究
发表
由
Karthik 提交

作者:
Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam

摘要
预训练数据集是多模态模型发展的基础,然而,它们通常包含源自其抓取的网络规模语料库中的固有偏见和有害内容。在本文中,我们研究了 LLaVA 图像-文本预训练数据集中有害内容的普遍性,考察了有害内容在不同模态中的表现形式。我们对常见有害内容类别进行了全面分析,并提出了有针对性的缓解策略,最终创建了一个经过净化的、有害内容已缓解的数据集。该数据集移除了 LLaVA 预训练数据集中的 7,531 个有害图像-文本对。我们提供了实施稳健有害内容检测流程的指导意见。我们的发现强调了主动识别和过滤有害内容——例如仇恨言论、露骨图像和定向骚扰——以构建更负责任、更公平的多模态系统的必要性。该有害内容已缓解的数据集是开源的,并可用于进一步研究。
已被 ReGenAI CVPR2025 研讨会接收,作为口头报告