快手 Keye-VL 技术报告

发表
Yi-Fan ZhangYi-Fan Zhang 提交
作者: Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, jiangxia caoJiangxia Cao, Jiankang Chen, jingyunJingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Sophie ZhangShengnan Zhang, Siyang Mao, Sui Huang, ktzTianke Zhang, tingting gaoTingting Gao, Wei Chen, wei yuanWei Yuan, Xiangyu Wu, Xiao HuXiao Hu, xingyuluXingyu Lu, Yang Zhou, Yi-Fan ZhangYi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin LingZhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang

摘要

多模态大型语言模型 (MLLM) 在静态图像上表现出卓越的能力,但它们在理解动态、信息密集的短视频方面通常表现不足,而短视频是当今数字领域的主导媒介。为了弥合这一差距,我们推出了 Kwai Keye-VL,一个拥有 80 亿参数的多模态基础模型,专为在短视频理解方面实现领先性能而设计,同时保持强大的通用视觉语言能力。Keye-VL 的开发基于两个核心支柱:一个超过 6000 亿 tokens 的大规模高质量数据集,并强烈侧重于视频;以及一种创新的训练方法。该方法采用了四阶段预训练过程,以实现稳固的视觉语言对齐,然后是细致的两阶段后训练过程。第一个后训练阶段增强了指令跟随等基本能力,而第二个阶段则侧重于激发高级推理。在第二个阶段中,一个关键的创新是我们的五模式“冷启动”数据混合,其中包括“思考”、“非思考”、“自动思考”、“带图像思考”和高质量视频数据。这种混合教会模型何时以及如何进行推理。随后的强化学习 (RL) 和对齐步骤进一步增强了这些推理能力,并纠正了异常的模型行为,例如重复输出。为了验证我们的方法,我们进行了广泛的评估,表明 Keye-VL 在公共视频基准测试中取得了最先进的结果,并在基于图像的通用任务中保持了高度的竞争力(图 1)。此外,我们开发并发布了 KC-MMBench,这是一个专为真实世界的短视频场景量身定制的新基准测试,Keye-VL 在其中显示出显着的优势。
查看 arXiv 页面查看 PDF

评论

Yi-Fan ZhangYi-Fan Zhang
论文作者
论文提交者

image.png