AI论文精选
视觉语言模型
⏶
157
将RL扩展到长视频
⏶
140
SmolVLA:一种经济高效的机器人视觉-语言-动作模型
⏶
133
构建和更好地理解视觉-语言模型:见解和未来方向
⏶
132
Vision-Zero:通过策略性游戏化自对弈实现可扩展的VLM自我改进
⏶
105
ScaleCUA: 使用跨平台数据扩展开源计算机使用代理
⏶
84
通过推理分解实现自奖励的视觉语言模型
⏶
80
时间盲区:为什么视频-语言模型无法像人类一样“看”?
⏶
80
MiMo-VL 技术报告
⏶
75
VisionThink:通过强化学习实现的智能高效视觉语言模型
⏶
66
Eagle 2.5:提升前沿视觉-语言模型的长上下文后训练
⏶
65
更多思考,更少准确性?论视觉语言模型中推理的双重性质
⏶
64
DeepPHY:对具身VLM进行物理推理的基准测试
⏶
64
从像素到文字——迈向大规模原生视觉-语言原语
⏶
59
视觉三元统一强化学习:一种强化学习看遍所有
⏶
58
VS-Bench:评估多智能体环境中用于战略推理和决策的视觉-语言模型
⏶
53
Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理
⏶
52
SEAgent: 具有自主学习经验的自进化计算机使用代理
⏶
50
Sherlock: 视觉语言模型中的自校正推理
⏶
49
CSVQA: 一个用于评估VLMs STEM推理能力的中文多模态基准
⏶
48
ColorBench: VLMs 能否看到和理解多彩的世界?一个用于颜色感知、推理和鲁棒性的综合基准
⏶
46
StreamingVLM: 实时理解无限视频流
⏶
45
ZeroGUI:以零人力成本自动化在线GUI学习
⏶
45
视觉-语言-视觉自编码器:从扩散模型中进行可扩展的知识蒸馏
⏶
43
PhysX:基于物理的 3D 资产生成
⏶
42
FLUX-Reason-6M & PRISM-Bench: 百万级文本到图像推理数据集和综合基准
⏶
40
Glyph: 通过视觉文本压缩扩展上下文窗口
⏶
39
生成,但要验证:通过回顾性重采样减少视觉语言模型中的幻觉
⏶
39
GenRecal:从大到小视觉语言模型校准后生成
⏶
38
OmniSpatial: 迈向视觉语言模型的全面空间推理基准
⏶
36
cadrille: 基于在线强化学习的多模态 CAD 重建
⏶
36
VIKI-R:通过强化学习协调具身多智能体协作
⏶
36
EmbRACE-3K:复杂环境中的具身推理与行动
⏶
34
MORSE-500: 一个程序化可控的视频基准,用于压力测试多模态推理
⏶
33
Surfer-H 遇见 Holo1:由开放权重驱动的经济高效 Web 智能体
⏶
32
Code2Video:面向教育视频生成的代码中心范式
⏶
31
OpenCUA: 计算机使用代理的开放基础
⏶
30
视觉-语言模型中的视角感知推理:通过心理意象模拟
⏶
29
机器心智意象:通过潜在视觉令牌赋能多模态推理
⏶
29
GSM8K-V:视觉语言模型能否解决具有视觉背景的小学数学应用题?
⏶
28
视觉语言模型是否拥有内部世界模型?走向原子化评估
⏶
28
VLMs 在视觉空间智能方面还有多远?——一个基于基准的视角
⏶
28
迈向通用检索增强生成的混合模态检索
⏶
27
统一的视觉-语言-行动模型
⏶
27
迷失在嵌入中:视觉-语言模型中的信息丢失
⏶
26
MindJourney:利用世界模型进行测试时扩展以实现空间推理
⏶
25
超越识别:评估视觉语言模型中的视觉视角采择
⏶
24
EfficientLLM: 大语言模型中的效率
⏶
24
生成式通用验证器作为多模态元推理器
⏶
23
视觉语言模型存在偏见
⏶
23
VLM中针对图像偏好的听众奖励式思维
⏶
23
看见、指向、飞翔:一种无需学习的VLM框架,用于通用的无人机导航
⏶
23
FineVision:开放数据就足够了
⏶
22
DualTHOR:一个用于应急感知规划的双臂人形模拟平台
⏶
22
ShotBench: 视觉-语言模型中的专家级电影理解
⏶
22
Mind-the-Glitch:用于检测主体驱动生成中不一致之处的视觉对应
⏶
21
视觉Transformer不需要训练寄存器
⏶
21
经验是最好的老师:通过自生成记忆将VLM扎根于机器人技术
⏶
21
视觉语言模型中的可解释物理推理和性能分类
⏶
20
简单的半监督知识蒸馏:通过双头优化 (DHO) 从视觉-语言模型
⏶
20
VideoGameQA-Bench: 评估用于电子游戏质量保证的视觉-语言模型
⏶
20
医学世界模型:肿瘤演化的生成式模拟用于治疗规划
⏶
19
NoisyRollout:通过数据增强强化视觉推理
⏶
18
NOVA: 用于脑部MRI异常定位和临床推理的基准
⏶
18
对比注意力聚焦:增强视觉语言模型的视觉推理能力
⏶
18
Vlaser:具有协同具身推理的视觉-语言-动作模型
⏶
17
打破数据壁垒 -- 通过任务泛化构建GUI代理
⏶
17
G-FOCUS: 迈向评估UI设计说服力的一种鲁棒方法
⏶
16
ChartMuseum: 测试大型视觉-语言模型的视觉推理能力
⏶
15
欧几里得的礼物:通过几何代理任务增强视觉-语言模型中的空间感知和推理能力
⏶
14
细粒度偏好优化提高VLM的空间推理能力
⏶
14
MMPB:多模态个性化时代来临
⏶
14
关于视觉令牌的认知不确定性对大型视觉-语言模型中对象幻觉的影响
⏶
13
DyMU:用于高效 VLM 的动态合并与虚拟解合并
⏶
13
ViPlan:基于符号谓词和视觉语言模型的视觉规划基准
⏶
13
G1: 通过强化学习自举视觉语言模型的感知和推理能力
⏶
13
ViewSpatial-Bench:评估视觉-语言模型中的多视角空间定位能力
⏶
13
有限视角下的空间心理建模
⏶
13
MARVIS: 模态自适应可视化推理
⏶
13
FlagEval 调查报告:对大型推理模型在自动可验证的文本和视觉问题上的初步评估
⏶
13
CodePlot-CoT:通过代码驱动图像进行思考的数学视觉推理
⏶
12
顿悟时刻再探:视觉语言模型真的能在推理时缩放中进行自我验证吗?
⏶
11
理性赋能视觉:通过模型合并理解感知和推理
⏶
11
用于矢量图形生成的渲染感知强化学习
⏶
11
无标签视觉语言模型适应:一项全面调查
⏶
10
VisualSphinx:用于强化学习 (RL) 的大规模合成视觉逻辑谜题
⏶
10
MiCo:强化视觉推理的多图像对比
⏶
10
PresentAgent:用于演示视频生成的多模态智能体
⏶
10
面向以自我为中心的图像-语言模型多视图场景的空间推理
⏶
10
智能体拼图交互学习,用于增强视觉-语言模型中的视觉感知和推理
⏶
9
MMInference:通过模态感知置换稀疏注意力加速长上下文VLM的预填充
⏶
9
视觉-语言-行动 模型:概念、进展、应用与挑战
⏶
9
LaTtE-Flow: 逐层时间步专家流式Transformer
⏶
9
SEAM:跨模态语义等价性基准测试,用于视觉-语言模型
⏶
9
GRPO-MA:GRPO 中的多答案生成,用于稳定高效的思维链训练
⏶
9
高效的小型视觉语言模型测试时缩放
⏶
8
视觉语言模型在现实世界中安全吗?一项基于Meme的基准研究
⏶
8
QARI-OCR: 通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别
⏶
8
艺术中的人工智能与错误信息:视觉语言模型能判断画布背后的手还是机器吗?
⏶
8
IAG:针对视觉定位的 VLMs 的输入感知后门攻击
⏶
8
MEENA(波斯多模态多语言评估):面向N级评估的多模态多语言教育考试
⏶
8
Mano 报告
⏶
7
蒸馏用于自回归图像生成的语义感知序列
⏶
7
通过 LLM 代理的零样本视觉编码器嫁接
⏶
7
隐藏在众目睽睽之下:VLM 忽视了它们的视觉表征
⏶
7
IR3D-Bench: 基于智能体式逆渲染评估视觉-语言模型的场景理解能力