⏶1
数据扩展能否带来视觉组合泛化?
发表
由
Arnas Uselis 提交
作者:
Arnas Uselis, Andrea Dittadi, Seong Joon Oh
摘要
组合性理解对人类智能至关重要,但目前尚不清楚当代视觉模型是否具备这种能力。当前主流的机器学习范式建立在这样的前提之上:扩大数据和模型规模将改善分布外性能,包括组合性泛化。我们通过系统性地改变数据规模、概念多样性和组合覆盖率的受控实验来验证这一前提。我们发现,组合性泛化是由数据多样性驱动的,而不仅仅是数据规模。增加的组合覆盖率迫使模型发现一种线性分解的表示结构,其中概念可以分解为可加性成分。我们证明这种结构是实现效率的关键,能够从少量观察到的组合中实现完美的泛化。评估预训练模型(DINO, CLIP)时,我们发现它们的性能高于随机水平但并非完美,这表明这种结构部分存在。我们的工作促使人们更加重视构建用于组合性泛化的多样化数据集,并考虑能够实现高效组合学习的表示结构的重要性。代码可在 https://github.com/oshapio/visual-compositional-generalization 获取。
我们研究了数据规模如何影响视觉模型中的组合泛化能力。我们发现,简单增加数据量并不能提高泛化能力;相反,性能强烈依赖于观察到的组合的多样性。值得注意的是,多样性的增加促使模型学习一种线性分解的表示结构,我们证明这使得从极少量示例中进行高效泛化成为可能。在评估大型预训练模型(DINO, CLIP)时,我们发现它们展现出部分线性结构,这显示了它们的潜力,但也暴露了局限性。