Kimi-VL 技术报告

发表
Haoning Wu, TeoHaoning Wu, Teo 提交
作者: Kimi Team, Angang Du, Bohong Yin, Bowei XingBowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin ZhangChenlin Zhang, DuChenzhuang Du, Chu Wei, Congcong WangCongcong Wang, Dehao Zhang, Dikang Du, wangDongliang Wang, Enming YuanEnming Yuan, LuEnzhe Lu, Fang Li, Flood SungFlood Sung, Guangda Wei, LaiGuokun Lai, Han Zhu, Hao DingHao Ding, Hao Hu, Hao YangHao Yang, Hao Zhang, Haoning Wu, TeoHaoning Wu, Haotian YaoHaotian Yao, Haoyu LuHaoyu Lu, Heng Wang, Hongcheng GaoHongcheng Gao, Huabin ZhengHuabin Zheng, Jiaming LiJiaming Li, jianlin suJianlin Su, jianzhouWangJianzhou Wang, Jiaqi DengJiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, kun ouyangKun Ouyang, Liang Chen, Lin SuiLin Sui, Longhui Yu, dongMengfan Dong, Mengnan Dong, InuiNuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui SongTianhui Song, Tongtong Bai, Wei Song, Wayne HoWeiran He, Weixiao HuangWeixiao Huang, Weixin Xu, Xiaokun YuanXiaokun Yuan, Xingcheng YaoXingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan WangXinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo MiaoYibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin LiuYuanxin Liu, DuYulun Du, Yuxin Wu, yuzhi wangYuzhi Wang, Yuzi Yan, zhouzaidaZaida Zhou, Zhaowei Li, Zhejun JiangZhejun Jiang, Zheng Zhang, ZHILIN YANGZhilin Yang, Zhiqi Huang, Zihao HuangZihao Huang, Zijia Zhao, Ziwei Chen

摘要

我们推出了 Kimi-VL,这是一个高效的开源混合专家 (MoE) 视觉语言模型 (VLM),它提供先进的多模态推理、长上下文理解和强大的代理能力——所有这些都仅激活其语言解码器中的 2.8B 参数 (Kimi-VL-A3B)。Kimi-VL 在具有挑战性的领域中表现出强大的性能:作为通用 VLM,Kimi-VL 在多轮代理任务(例如,OSWorld)中表现出色,与旗舰模型相媲美。此外,它在各种具有挑战性的视觉语言任务中表现出卓越的能力,包括大学水平的图像和视频理解、OCR、数学推理和多图像理解。在对比评估中,它可以有效地与最先进的高效 VLM(如 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT)竞争,同时在几个关键领域超越 GPT-4o。Kimi-VL 还在处理长上下文和清晰感知方面取得了进展。凭借 128K 的扩展上下文窗口,Kimi-VL 可以处理各种长输入,在 LongVideoBench 上取得了令人印象深刻的 64.5 分,在 MMLongBench-Doc 上取得了 35.1 分。其原生分辨率视觉编码器 MoonViT 进一步使其能够看到和理解超高分辨率视觉输入,在 InfoVQA 上取得了 83.2 分,在 ScreenSpot-Pro 上取得了 34.5 分,同时保持了常见任务的较低计算成本。在 Kimi-VL 的基础上,我们推出了高级长思考变体:Kimi-VL-Thinking。该模型通过长链思考 (CoT) 监督式微调 (SFT) 和强化学习 (RL) 开发,表现出强大的长程推理能力。它在 MMMU 上取得了 61.7 分,在 MathVision 上取得了 36.8 分,在 MathVista 上取得了 71.3 分,同时保持了紧凑的 2.8B 激活 LLM 参数,为高效多模态思考模型树立了新的标准。代码和模型可在 https://github.com/MoonshotAI/Kimi-VL 公开访问。
查看 arXiv 页面查看 PDF
Kimi-VL 技术报告
Kimi-VL 技术报告

评论