⏶37
AnyCap 项目:一个用于可控全模态描述的统一框架、数据集和基准
发表
由
Ruihang Chu 提交
作者:
Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang,
Ruihang Chu
摘要
可控的图像描述对于精确的多模态对齐和指令遵循至关重要,然而现有模型往往缺乏细粒度控制和可靠的评估协议。为弥补这一差距,我们提出了AnyCap项目,一个涵盖模型、数据集和评估的综合解决方案。我们推出了AnyCapModel (ACM),这是一个轻量级的即插即用框架,无需重新训练基础模型即可增强现有基础模型对全模态图像描述的可控性。ACM重用基础模型中的原始描述,同时结合用户指令和模态特征以生成改进的描述。为解决可控多模态图像描述中的数据稀缺问题,我们构建了AnyCapDataset (ACD),涵盖三种模态、28种用户指令类型和30万高质量数据条目。我们进一步提出了AnyCapEval,这是一个新的基准测试,通过解耦内容准确性和风格保真度,为可控图像描述提供了更可靠的评估指标。ACM在AnyCapEval上显著提高了各种基础模型的描述质量。值得注意的是,ACM-8B将GPT-4o的内容得分提高了45%,风格得分提高了12%,并且在MIA-Bench和VidCapBench等广泛使用的基准测试中也取得了显著的提升。
arXiv 链接
AnyCap 项目是一个统一的字幕框架、数据集和基准,支持图像、音频和视频字幕,并具有可控的风格。它完全开源,涵盖训练、评估和基准测试!
一个单一的框架,用于:
图像字幕
音频字幕
视频字幕
一站式支持——并支持模态特定组件。
通过单个用户文本提示控制字幕的内容和风格:
内容:背景、事件、实例、动作、实例外观、区域等
风格:简洁、详细、体裁、长度、主题
支持根据用户需求定制字幕。
AnyCapEval
一个行业级的基准测试,具有:
模态特定测试集(图像/音频/视频)
内容相关指标
风格相关指标
从而提高评估的准确性并减少方差。
所需的一切都已包含:
✅ 完整的训练数据
✅ 模型推理管线
✅ 评估基准
所有内容均在宽松的开源许可下提供。
查阅论文和代码:
📄 论文:arXiv:2507.12841
📦 代码 & 模型:Github
如需提问、寻求合作或提交基准测试结果,请通过论文的联系邮箱与我们联系。