COMPACT:组合式从原子到复杂视觉能力调优

发表
Xindi WuXindi Wu 提交
作者: Xindi WuXindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky

摘要

多模态大型语言模型(MLLMs)在简单的视觉-语言任务中表现出色,但在面对需要多种能力的复杂任务时却力不从心,例如同时识别物体、计数以及理解它们的空间关系。这可能部分是由于视觉指令微调(VIT)——MLLMs 的一个关键训练步骤——传统上专注于扩展数据量,而非训练示例的组合复杂性。我们提出了 COMPACT(从原子到复杂的组合视觉能力微调),它生成一个明确控制训练示例组合复杂性的训练数据集。COMPACT 的数据允许 MLLMs 训练原子能力的组合,以更有效地学习复杂能力。在所有基准测试中,COMPACT 在使用不足 LLaVA-665k VIT 数据预算的 10% 的情况下,实现了与其相当的性能,甚至在多个基准测试中,尤其是在涉及复杂多能力任务的基准测试中超越了它。例如,在需要四种或更多原子能力的特别复杂问题上,COMPACT 在 MMStar 上实现了 83.3% 的显著提升,在 MM-Vet 上实现了 94.0% 的提升,相较于完全规模的 VIT。COMPACT 提供了一种可扩展、数据高效的视觉组合微调方法,以改进复杂的视觉-语言任务。
查看 arXiv 页面查看 PDF

评论

Xindi WuXindi Wu
论文作者
论文提交者

网站:https://princetonvisualai.github.io/compact/