⏶121

Kimi-VL 技术报告

04月10日发表

04月11日由 Haoning Wu, Teo 提交

作者: Kimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, wang Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Lai Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Teo Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, jianzhouWang Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui Lin Sui, Longhui Yu, dong Mengfan Dong, Mengnan Dong, Inui Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Wayne Ho Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, zhouzaida Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen

摘要

我们推出了 Kimi-VL，这是一个高效的开源混合专家 (MoE) 视觉语言模型 (VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力——所有这些都仅激活其语言解码器中的 2.8B 参数 (Kimi-VL-A3B)。Kimi-VL 在具有挑战性的领域中表现出强大的性能：作为通用 VLM，Kimi-VL 在多轮代理任务（例如，OSWorld）中表现出色，与旗舰模型相媲美。此外，它在各种具有挑战性的视觉语言任务中表现出卓越的能力，包括大学水平的图像和视频理解、OCR、数学推理和多图像理解。在对比评估中，它可以有效地与最先进的高效 VLM（如 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT）竞争，同时在几个关键领域超越 GPT-4o。Kimi-VL 还在处理长上下文和清晰感知方面取得了进展。凭借 128K 的扩展上下文窗口，Kimi-VL 可以处理各种长输入，在 LongVideoBench 上取得了令人印象深刻的 64.5 分，在 MMLongBench-Doc 上取得了 35.1 分。其原生分辨率视觉编码器 MoonViT 进一步使其能够看到和理解超高分辨率视觉输入，在 InfoVQA 上取得了 83.2 分，在 ScreenSpot-Pro 上取得了 34.5 分，同时保持了常见任务的较低计算成本。在 Kimi-VL 的基础上，我们推出了高级长思考变体：Kimi-VL-Thinking。该模型通过长链思考 (CoT) 监督式微调 (SFT) 和强化学习 (RL) 开发，表现出强大的长程推理能力。它在 MMMU 上取得了 61.7 分，在 MathVision 上取得了 36.8 分，在 MathVista 上取得了 71.3 分，同时保持了紧凑的 2.8B 激活 LLM 参数，为高效多模态思考模型树立了新的标准。代码和模型可在 https://github.com/MoonshotAI/Kimi-VL 公开访问。

查看 arXiv 页面查看 PDF

Haoning Wu, Teo

论文作者

论文提交者

模型合集: https://huggingface.co/collections/moonshotai/kimi-vl-a3b-67f67b6ac91d3b03d382dd85

Space: https://huggingface.co/spaces/moonshotai/Kimi-VL-A3B-Thinking

GitHub: https://github.com/MoonshotAI/Kimi-VL

Kimi-VL 技术报告

摘要

评论