⏶56
ARC-混元-视频-7B:真实世界短视频的结构化视频理解
发表
由
Yuying Ge 提交
作者: Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
摘要
真实世界用户生成的短视频,特别是在微信视频号和TikTok等平台上传播的短视频,占据了移动互联网的主导地位。然而,当前的大型多模态模型缺乏必要的时序结构化、详细和深入的视频理解能力,而这正是有效视频搜索和推荐以及新兴视频应用的基础。理解真实世界的短视频实际上具有挑战性,因为它们包含复杂的视觉元素、视觉和音频中高信息密度,以及专注于情感表达和观点传递的快速节奏。这需要高级推理来有效整合多模态信息,包括视觉、音频和文本。在这项工作中,我们引入了ARC-Hunyuan-Video,一个多模态模型,能够端到端地处理原始视频输入中的视觉、音频和文本信号,以实现结构化理解。该模型能够进行多粒度带时间戳的视频字幕生成和摘要、开放式视频问答、时序视频定位和视频推理。利用自动化标注流程生成的高质量数据,我们紧凑的7B参数模型通过全面的训练方案进行训练:预训练、指令微调、冷启动、强化学习(RL)后训练和最终指令微调。在我们引入的基准ShortVid-Bench上的定量评估以及定性比较证明了其在真实世界视频理解方面的强大性能,并且它支持零样本或少量样本的微调,以适应各种下游应用。我们的模型在实际生产部署中已在用户参与度和满意度方面产生了切实可衡量的改进,这一成功得益于其卓越的效率,压力测试表明在一台H20 GPU上,一分钟视频的推理时间仅为10秒。
模型:https://huggingface.co/TencentARC/ARC-Hunyuan-Video-7B