视觉语言模型

将RL扩展到长视频

SmolVLA：一种经济高效的机器人视觉-语言-动作模型

SmolVLA：一种经济高效的机器人视觉-语言-动作模型

构建和更好地理解视觉-语言模型：见解和未来方向

构建和更好地理解视觉-语言模型：见解和未来方向

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我改进

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我改进

ScaleCUA: 使用跨平台数据扩展开源计算机使用代理

ScaleCUA: 使用跨平台数据扩展开源计算机使用代理

通过推理分解实现自奖励的视觉语言模型

通过推理分解实现自奖励的视觉语言模型

时间盲区：为什么视频-语言模型无法像人类一样“看”？

时间盲区：为什么视频-语言模型无法像人类一样“看”？

MiMo-VL 技术报告

VisionThink：通过强化学习实现的智能高效视觉语言模型

VisionThink：通过强化学习实现的智能高效视觉语言模型

Eagle 2.5：提升前沿视觉-语言模型的长上下文后训练

Eagle 2.5：提升前沿视觉-语言模型的长上下文后训练

更多思考，更少准确性？论视觉语言模型中推理的双重性质

更多思考，更少准确性？论视觉语言模型中推理的双重性质

DeepPHY：对具身VLM进行物理推理的基准测试

DeepPHY：对具身VLM进行物理推理的基准测试

从像素到文字——迈向大规模原生视觉-语言原语

从像素到文字——迈向大规模原生视觉-语言原语

视觉三元统一强化学习：一种强化学习看遍所有

视觉三元统一强化学习：一种强化学习看遍所有

VS-Bench：评估多智能体环境中用于战略推理和决策的视觉-语言模型

VS-Bench：评估多智能体环境中用于战略推理和决策的视觉-语言模型

Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理

Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理

SEAgent: 具有自主学习经验的自进化计算机使用代理

SEAgent: 具有自主学习经验的自进化计算机使用代理

Sherlock: 视觉语言模型中的自校正推理

Sherlock: 视觉语言模型中的自校正推理

CSVQA: 一个用于评估VLMs STEM推理能力的中文多模态基准

CSVQA: 一个用于评估VLMs STEM推理能力的中文多模态基准

ColorBench: VLMs 能否看到和理解多彩的世界？一个用于颜色感知、推理和鲁棒性的综合基准

ColorBench: VLMs 能否看到和理解多彩的世界？一个用于颜色感知、推理和鲁棒性的综合基准

StreamingVLM: 实时理解无限视频流

StreamingVLM: 实时理解无限视频流

ZeroGUI：以零人力成本自动化在线GUI学习

ZeroGUI：以零人力成本自动化在线GUI学习

视觉-语言-视觉自编码器：从扩散模型中进行可扩展的知识蒸馏

视觉-语言-视觉自编码器：从扩散模型中进行可扩展的知识蒸馏

PhysX：基于物理的 3D 资产生成

FLUX-Reason-6M & PRISM-Bench: 百万级文本到图像推理数据集和综合基准

FLUX-Reason-6M & PRISM-Bench: 百万级文本到图像推理数据集和综合基准

Glyph: 通过视觉文本压缩扩展上下文窗口

Glyph: 通过视觉文本压缩扩展上下文窗口

生成，但要验证：通过回顾性重采样减少视觉语言模型中的幻觉

生成，但要验证：通过回顾性重采样减少视觉语言模型中的幻觉

GenRecal：从大到小视觉语言模型校准后生成

OmniSpatial: 迈向视觉语言模型的全面空间推理基准

cadrille: 基于在线强化学习的多模态 CAD 重建

cadrille: 基于在线强化学习的多模态 CAD 重建

VIKI-R：通过强化学习协调具身多智能体协作

VIKI-R：通过强化学习协调具身多智能体协作

EmbRACE-3K：复杂环境中的具身推理与行动

EmbRACE-3K：复杂环境中的具身推理与行动

MORSE-500: 一个程序化可控的视频基准，用于压力测试多模态推理

MORSE-500: 一个程序化可控的视频基准，用于压力测试多模态推理

Surfer-H 遇见 Holo1：由开放权重驱动的经济高效 Web 智能体

Surfer-H 遇见 Holo1：由开放权重驱动的经济高效 Web 智能体

Code2Video：面向教育视频生成的代码中心范式

Code2Video：面向教育视频生成的代码中心范式

OpenCUA: 计算机使用代理的开放基础

OpenCUA: 计算机使用代理的开放基础

视觉-语言模型中的视角感知推理：通过心理意象模拟

视觉-语言模型中的视角感知推理：通过心理意象模拟

机器心智意象：通过潜在视觉令牌赋能多模态推理

机器心智意象：通过潜在视觉令牌赋能多模态推理

GSM8K-V：视觉语言模型能否解决具有视觉背景的小学数学应用题？

GSM8K-V：视觉语言模型能否解决具有视觉背景的小学数学应用题？

视觉语言模型是否拥有内部世界模型？走向原子化评估

视觉语言模型是否拥有内部世界模型？走向原子化评估

VLMs 在视觉空间智能方面还有多远？——一个基于基准的视角

VLMs 在视觉空间智能方面还有多远？——一个基于基准的视角

迈向通用检索增强生成的混合模态检索

迈向通用检索增强生成的混合模态检索

统一的视觉-语言-行动模型

迷失在嵌入中：视觉-语言模型中的信息丢失

迷失在嵌入中：视觉-语言模型中的信息丢失

MindJourney：利用世界模型进行测试时扩展以实现空间推理

超越识别：评估视觉语言模型中的视觉视角采择

超越识别：评估视觉语言模型中的视觉视角采择

EfficientLLM: 大语言模型中的效率

EfficientLLM: 大语言模型中的效率

生成式通用验证器作为多模态元推理器

生成式通用验证器作为多模态元推理器

视觉语言模型存在偏见

VLM中针对图像偏好的听众奖励式思维

VLM中针对图像偏好的听众奖励式思维

看见、指向、飞翔：一种无需学习的VLM框架，用于通用的无人机导航

FineVision：开放数据就足够了

FineVision：开放数据就足够了

DualTHOR：一个用于应急感知规划的双臂人形模拟平台

DualTHOR：一个用于应急感知规划的双臂人形模拟平台

ShotBench: 视觉-语言模型中的专家级电影理解

ShotBench: 视觉-语言模型中的专家级电影理解

Mind-the-Glitch：用于检测主体驱动生成中不一致之处的视觉对应

视觉Transformer不需要训练寄存器

视觉Transformer不需要训练寄存器

经验是最好的老师：通过自生成记忆将VLM扎根于机器人技术

经验是最好的老师：通过自生成记忆将VLM扎根于机器人技术

视觉语言模型中的可解释物理推理和性能分类

视觉语言模型中的可解释物理推理和性能分类

简单的半监督知识蒸馏：通过双头优化 (DHO) 从视觉-语言模型

简单的半监督知识蒸馏：通过双头优化 (DHO) 从视觉-语言模型

VideoGameQA-Bench: 评估用于电子游戏质量保证的视觉-语言模型

VideoGameQA-Bench: 评估用于电子游戏质量保证的视觉-语言模型

医学世界模型：肿瘤演化的生成式模拟用于治疗规划

医学世界模型：肿瘤演化的生成式模拟用于治疗规划

NoisyRollout：通过数据增强强化视觉推理

NoisyRollout：通过数据增强强化视觉推理

NOVA: 用于脑部MRI异常定位和临床推理的基准

NOVA: 用于脑部MRI异常定位和临床推理的基准

对比注意力聚焦：增强视觉语言模型的视觉推理能力

对比注意力聚焦：增强视觉语言模型的视觉推理能力

Vlaser：具有协同具身推理的视觉-语言-动作模型

Vlaser：具有协同具身推理的视觉-语言-动作模型

打破数据壁垒 -- 通过任务泛化构建GUI代理

打破数据壁垒 -- 通过任务泛化构建GUI代理

G-FOCUS: 迈向评估UI设计说服力的一种鲁棒方法

G-FOCUS: 迈向评估UI设计说服力的一种鲁棒方法

ChartMuseum: 测试大型视觉-语言模型的视觉推理能力

ChartMuseum: 测试大型视觉-语言模型的视觉推理能力

欧几里得的礼物：通过几何代理任务增强视觉-语言模型中的空间感知和推理能力

欧几里得的礼物：通过几何代理任务增强视觉-语言模型中的空间感知和推理能力

细粒度偏好优化提高VLM的空间推理能力

细粒度偏好优化提高VLM的空间推理能力

MMPB：多模态个性化时代来临

MMPB：多模态个性化时代来临

关于视觉令牌的认知不确定性对大型视觉-语言模型中对象幻觉的影响

关于视觉令牌的认知不确定性对大型视觉-语言模型中对象幻觉的影响

DyMU：用于高效 VLM 的动态合并与虚拟解合并

DyMU：用于高效 VLM 的动态合并与虚拟解合并

ViPlan：基于符号谓词和视觉语言模型的视觉规划基准

ViPlan：基于符号谓词和视觉语言模型的视觉规划基准

G1: 通过强化学习自举视觉语言模型的感知和推理能力

G1: 通过强化学习自举视觉语言模型的感知和推理能力

ViewSpatial-Bench：评估视觉-语言模型中的多视角空间定位能力

ViewSpatial-Bench：评估视觉-语言模型中的多视角空间定位能力

有限视角下的空间心理建模

MARVIS: 模态自适应可视化推理

MARVIS: 模态自适应可视化推理

FlagEval 调查报告：对大型推理模型在自动可验证的文本和视觉问题上的初步评估

FlagEval 调查报告：对大型推理模型在自动可验证的文本和视觉问题上的初步评估

CodePlot-CoT：通过代码驱动图像进行思考的数学视觉推理

CodePlot-CoT：通过代码驱动图像进行思考的数学视觉推理

顿悟时刻再探：视觉语言模型真的能在推理时缩放中进行自我验证吗？

顿悟时刻再探：视觉语言模型真的能在推理时缩放中进行自我验证吗？

理性赋能视觉：通过模型合并理解感知和推理

理性赋能视觉：通过模型合并理解感知和推理

用于矢量图形生成的渲染感知强化学习

用于矢量图形生成的渲染感知强化学习

无标签视觉语言模型适应：一项全面调查

无标签视觉语言模型适应：一项全面调查

VisualSphinx：用于强化学习 (RL) 的大规模合成视觉逻辑谜题

VisualSphinx：用于强化学习 (RL) 的大规模合成视觉逻辑谜题

MiCo：强化视觉推理的多图像对比

MiCo：强化视觉推理的多图像对比

PresentAgent：用于演示视频生成的多模态智能体

面向以自我为中心的图像-语言模型多视图场景的空间推理

面向以自我为中心的图像-语言模型多视图场景的空间推理

智能体拼图交互学习，用于增强视觉-语言模型中的视觉感知和推理

智能体拼图交互学习，用于增强视觉-语言模型中的视觉感知和推理

MMInference：通过模态感知置换稀疏注意力加速长上下文VLM的预填充

MMInference：通过模态感知置换稀疏注意力加速长上下文VLM的预填充

视觉-语言-行动模型：概念、进展、应用与挑战

视觉-语言-行动模型：概念、进展、应用与挑战

LaTtE-Flow: 逐层时间步专家流式Transformer

LaTtE-Flow: 逐层时间步专家流式Transformer

SEAM：跨模态语义等价性基准测试，用于视觉-语言模型

SEAM：跨模态语义等价性基准测试，用于视觉-语言模型

GRPO-MA：GRPO 中的多答案生成，用于稳定高效的思维链训练

GRPO-MA：GRPO 中的多答案生成，用于稳定高效的思维链训练

高效的小型视觉语言模型测试时缩放

高效的小型视觉语言模型测试时缩放

视觉语言模型在现实世界中安全吗？一项基于Meme的基准研究

视觉语言模型在现实世界中安全吗？一项基于Meme的基准研究

QARI-OCR: 通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别

QARI-OCR: 通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别

艺术中的人工智能与错误信息：视觉语言模型能判断画布背后的手还是机器吗？

艺术中的人工智能与错误信息：视觉语言模型能判断画布背后的手还是机器吗？

IAG：针对视觉定位的 VLMs 的输入感知后门攻击

IAG：针对视觉定位的 VLMs 的输入感知后门攻击

MEENA（波斯多模态多语言评估）：面向N级评估的多模态多语言教育考试

MEENA（波斯多模态多语言评估）：面向N级评估的多模态多语言教育考试

蒸馏用于自回归图像生成的语义感知序列

蒸馏用于自回归图像生成的语义感知序列

通过 LLM 代理的零样本视觉编码器嫁接

通过 LLM 代理的零样本视觉编码器嫁接

隐藏在众目睽睽之下：VLM 忽视了它们的视觉表征

隐藏在众目睽睽之下：VLM 忽视了它们的视觉表征

IR3D-Bench: 基于智能体式逆渲染评估视觉-语言模型的场景理解能力

IR3D-Bench: 基于智能体式逆渲染评估视觉-语言模型的场景理解能力