UGC-VideoCaptioner:一个全方位的 UGC 视频细节描述模型与新基准

发表
peiran wupeiran wu 提交
作者: peiran wuPeiran Wu, Yunze Liu, Zhengdong Zhu, Enmin Zhou, Shawn Shen

摘要

现实世界中的用户生成视频,尤其是在TikTok等平台上的视频,通常包含丰富且交织的音视频内容。然而,现有的视频字幕生成基准和模型仍然主要以视觉为中心,忽略了音频在传达场景动态、说话者意图和叙事背景方面的关键作用。这种全模态数据集以及轻量级、高性能模型的缺乏,阻碍了细粒度多模态视频理解领域的进展。为应对这些挑战,我们推出了UGC-VideoCap,这是一个全新的基准和模型框架,专为用户生成的短视频进行详细的全模态字幕生成而设计。与以往的数据集不同,UGC-VideoCap强调音频和视觉模态的均衡融合,其特色是包含了1000个TikTok视频,这些视频通过一个结构化的三阶段“人机回环”流程进行标注,涵盖了纯音频、纯视觉以及音视频联合的语义。该基准还包括4000个精心设计的问答对,旨在探查单模态和跨模态的理解能力。在推出该数据集的同时,我们提出了UGC-VideoCaptioner(3B),这是一个从Gemini 2.5 Flash中蒸馏而来的30亿参数字幕生成模型。我们采用了一种新颖的两阶段训练策略——即监督微调后进行组相对策略优化(GRPO),该方法能够在有限的数据下实现高效的适应,同时保持有竞争力的性能。总而言之,我们的基准和模型为在不受限制的真实用户生成内容(UGC)场景中推动全模态视频字幕生成技术的发展,提供了一个高质量的基础和一种数据高效的解决方案。
查看 arXiv 页面查看 PDF

评论

peiran wupeiran wu
论文作者
论文提交者

UGC-VideoCaptioner 技术报告(进展中)

首个UGC详细视频字幕基准和模型

论文:https://arxiv.org/abs/2507.11336(全能视频详细字幕)

网站:https://memories.ai/

代码:https://github.com/WPR001/UGC_VideoCaptioner

基准与模型:https://huggingface.co/collections/openinterx/ugc-videocap-6845e290580112a1834737c4