Eagle 2.5:提升前沿视觉-语言模型的长上下文后训练

发表
Guo ChenGuo Chen 提交
作者: Guo ChenGuo Chen, ZhiqiLiZhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, lulidongLidong Lu, De-An HuangDe-An Huang, Wonmin ByeonWonmin Byeon, Matthieu Le, Tuomas RintamakiTuomas Rintamaki, Tyler PoonTyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin WangLimin Wang, Bryan CatanzaroBryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding YuZhiding Yu, GuilinLiuGuilin Liu

摘要

我们介绍了 Eagle 2.5,一个用于长上下文多模态学习的前沿视觉-语言模型 (VLMs) 系列。我们的工作旨在解决长视频理解和高分辨率图像理解方面的挑战,并为这两项任务引入了一个通用框架。提出的训练框架结合了自动降级采样和图像区域保留这两项技术,这两项技术可以保持上下文完整性和视觉细节。该框架还在pipeline中包含了许多效率优化,用于长上下文数据训练。最后,我们提出了 Eagle-Video-110K,这是一个新颖的数据集,它整合了故事级别和剪辑级别的标注,促进了长视频理解。Eagle 2.5 在长上下文多模态基准测试中展示了显著的改进,为现有视觉-语言模型的局限性提供了稳健的解决方案。值得注意的是,我们最好的模型 Eagle 2.5-8B 在 Video-MME 上以 512 个输入帧实现了 72.4% 的准确率,与 GPT-4o 等顶级商业模型以及 Qwen2.5-VL-72B 和 InternVL2.5-78B 等大规模开源模型的结果相匹配。
查看 arXiv 页面查看 PDF

评论

Guo ChenGuo Chen
论文作者
论文提交者

我们介绍了 Eagle 2.5,一个前沿的视觉-语言模型 (VLMs) 系列,用于长上下文多模态学习。我们的工作旨在解决长视频理解和高分辨率图像理解方面的挑战,并为这两项任务引入了一个通用框架。所提出的训练框架结合了自动降级采样和图像区域保留两项技术,这两项技术旨在保持上下文完整性和视觉细节。该框架还包含了在长上下文数据训练流程中的多项效率优化。最后,我们提出了 Eagle-Video-110K,这是一个新颖的数据集,它整合了故事级别和片段级别的标注,以促进长视频理解。Eagle 2.5 在长上下文多模态基准测试中展示了显著的改进,为现有 VLM 的局限性提供了强大的解决方案。值得注意的是,我们最好的模型 Eagle 2.5-8B 在使用 512 帧输入的情况下,在 Video-MME 上取得了 72.4% 的成绩,与 GPT-4o 等顶级商业模型以及 Qwen2.5-VL-72B 和 InternVL2.5-78B 等大型开源模型的结果相媲美。

Zhe ChenZhe Chen

有趣

LiuLiu
此评论已隐藏。
Di ZhangDi Zhang

酷!