⏶29
Kwai Keye-VL 1.5 技术报告
发表
由
taesiri 提交

作者:
Biao Yang, Bin Wen,
Boyang Ding,
Changyi Liu, Chenglong Chu,
Chengru Song, Chongling Rao, Chuan Yi, Da Li,
Dunju Zang, Fan Yang,
Guorui Zhou, Guowang Zhang, Han Shen, Hao Peng,
Haojie Ding, Hao Wang, Hengrui Ju, Jiaming Huang, Jiangxia Cao, Jiankang Chen,
Jingyun Hua, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Muhao Wei, Qiang Wang, Ruitao Wang, Sen Na, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang,
Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zeyi Lu, Zhenhua Wu, Zhixin Ling, Zhuoran Yang, Ziming Li, Di Xu, Haixuan Gao, Hang Li, Jing Wang, Lejian Ren, Qigen Hu, Qianqian Wang, Shiyao Wang, Xinchen Luo, Yan Li, Yuhang Hu, Zixing Zhang




摘要
近年来,大型语言模型(LLMs)的发展取得了显著进步,通过多模态大型语言模型(MLLMs)将其能力扩展到多模态任务。然而,视频理解仍然是一个具有挑战性的领域,因为视频具有动态和信息密集型的特点。现有模型在处理视频内容时,在空间分辨率和时间覆盖度之间权衡困难。我们提出了Keye-VL-1.5,它通过三项关键创新来解决视频理解中的基本挑战。首先,我们引入了一种新颖的慢-快视频编码策略,该策略根据帧间相似性动态分配计算资源,以更高的分辨率处理具有显著视觉变化的关键帧(慢路径),同时以较低的分辨率处理相对静态的帧(快路径),以增加时间覆盖度。其次,我们实现了一个渐进式的四阶段预训练方法,系统地将模型的上下文长度从8K扩展到128K token,使其能够处理更长的视频和更复杂的视觉内容。第三,我们开发了一个全面的训练后流水线,专注于推理增强和人类偏好对齐,包括一个5步的思维链数据构建过程、具有渐进提示引导的基于GSPO的迭代强化学习(用于困难案例)以及对齐训练。通过在公开基准上的广泛评估和严格的内部人类评估,Keye-VL-1.5展现出比现有模型显著的改进,在视频理解任务上表现尤为出色,同时在通用多模态基准上保持了竞争力。
Kwai Keye-VL 1.5 技术报告