⏶60
描述万物:详细的局部图像与视频描述
发表
由
Long(Tony) Lian 提交
作者:
Long Lian, Yifan Ding, Yunhao Ge,
Sifei Liu,
Hanzi Mao,
Boyi Li, Marco Pavone, Ming-Yu Liu,
Trevor Darrell,
Adam Yala,
Yin Cui


摘要
为图像和视频中的特定区域生成详细准确的描述仍然是视觉语言模型面临的一个基础挑战。我们引入了 Describe Anything Model (DAM),这是一个为详细局部描述(DLC)设计的模型。DAM 通过两项关键创新同时保留局部细节和全局上下文:焦点提示(focal prompt),确保对目标区域进行高分辨率编码;以及局部视觉骨干网络(localized vision backbone),将精确的定位与其更广泛的上下文集成。为了解决高质量 DLC 数据稀缺的问题,我们提出了一种基于半监督学习(SSL)的数据流水线(DLC-SDP)。DLC-SDP 从现有分割数据集开始,并使用 SSL 扩展到无标签的网络图像。我们引入了 DLC-Bench,一个旨在评估 DLC 而不依赖参考描述的基准。DAM 在跨越关键词级别、短语级别以及详细多句局部图像和视频描述的 7 个基准上创下了新的 SOTA 记录。
我们很高兴推出描述一切模型 (Describe Anything Model, DAM),这是一个强大的多模态大语言模型 (MLLM),它能够使用点、框、涂鸦或掩码为图像或视频中用户定义的区域生成详细描述。Huggingface 演示(非常酷):https://huggingface.co/spaces/nvidia/describe-anything-model-demo 代码:https://github.com/NVlabs/describe-anything 项目页面(包含一个3分钟的视频):https://describe-anything.github.io 模型、数据集和基准:https://huggingface.co/collections/nvidia/describe-anything-680825bb8f5e41ff0785834c