AI论文精选
视觉语言模型
⏶
140
将RL扩展到长视频
⏶
130
构建和更好地理解视觉-语言模型:见解和未来方向
⏶
95
SmolVLA:一种经济高效的机器人视觉-语言-动作模型
⏶
89
4KAgent:代理式任意图像4K超分辨率
⏶
77
通过推理分解实现自奖励的视觉语言模型
⏶
75
时间盲区:为什么视频-语言模型无法像人类一样“看”?
⏶
71
MiMo-VL 技术报告
⏶
71
VisionThink:通过强化学习实现的智能高效视觉语言模型
⏶
61
DeepPHY:对具身VLM进行物理推理的基准测试
⏶
59
视觉三元统一强化学习:一种强化学习看遍所有
⏶
57
VS-Bench:评估多智能体环境中用于战略推理和决策的视觉-语言模型
⏶
51
Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理
⏶
50
Sherlock: 视觉语言模型中的自校正推理
⏶
48
CSVQA: 一个用于评估VLMs STEM推理能力的中文多模态基准
⏶
47
SEAgent: 具有自主学习经验的自进化计算机使用代理
⏶
45
ZeroGUI:以零人力成本自动化在线GUI学习
⏶
44
视觉-语言-视觉自编码器:从扩散模型中进行可扩展的知识蒸馏
⏶
41
PhysX:基于物理的 3D 资产生成
⏶
37
OmniSpatial: 迈向视觉语言模型的全面空间推理基准
⏶
36
GenRecal:从大到小视觉语言模型校准后生成
⏶
36
MoCa:模态感知持续预训练生成更优的双向多模态嵌入
⏶
35
cadrille: 基于在线强化学习的多模态 CAD 重建
⏶
34
VIKI-R:通过强化学习协调具身多智能体协作
⏶
33
MORSE-500: 一个程序化可控的视频基准,用于压力测试多模态推理
⏶
33
EmbRACE-3K:复杂环境中的具身推理与行动
⏶
30
Surfer-H 遇见 Holo1:由开放权重驱动的经济高效 Web 智能体
⏶
29
OpenCUA: 计算机使用代理的开放基础
⏶
27
机器心智意象:通过潜在视觉令牌赋能多模态推理
⏶
27
视觉语言模型是否拥有内部世界模型?走向原子化评估
⏶
25
MindJourney:利用世界模型进行测试时扩展以实现空间推理
⏶
23
统一的视觉-语言-行动模型
⏶
22
超越识别:评估视觉语言模型中的视觉视角采择
⏶
22
EfficientLLM: 大语言模型中的效率
⏶
22
DualTHOR:一个用于应急感知规划的双臂人形模拟平台
⏶
22
ShotBench: 视觉-语言模型中的专家级电影理解
⏶
21
经验是最好的老师:通过自生成记忆将VLM扎根于机器人技术
⏶
20
视觉语言模型存在偏见
⏶
19
简单的半监督知识蒸馏:通过双头优化 (DHO) 从视觉-语言模型
⏶
19
VideoGameQA-Bench: 评估用于电子游戏质量保证的视觉-语言模型
⏶
19
医学世界模型:肿瘤演化的生成式模拟用于治疗规划
⏶
19
视觉Transformer不需要训练寄存器
⏶
17
NOVA: 用于脑部MRI异常定位和临床推理的基准
⏶
16
ChartMuseum: 测试大型视觉-语言模型的视觉推理能力
⏶
15
G-FOCUS: 迈向评估UI设计说服力的一种鲁棒方法
⏶
13
ViPlan:基于符号谓词和视觉语言模型的视觉规划基准
⏶
13
细粒度偏好优化提高VLM的空间推理能力
⏶
13
有限视角下的空间心理建模
⏶
12
G1: 通过强化学习自举视觉语言模型的感知和推理能力
⏶
12
MARVIS: 模态自适应可视化推理
⏶
11
ViewSpatial-Bench:评估视觉-语言模型中的多视角空间定位能力
⏶
11
用于矢量图形生成的渲染感知强化学习
⏶
11
顿悟时刻再探:视觉语言模型真的能在推理时缩放中进行自我验证吗?
⏶
11
无标签视觉语言模型适应:一项全面调查
⏶
10
理性赋能视觉:通过模型合并理解感知和推理
⏶
10
LaTtE-Flow: 逐层时间步专家流式Transformer
⏶
10
MiCo:强化视觉推理的多图像对比
⏶
9
VisualSphinx:用于强化学习 (RL) 的大规模合成视觉逻辑谜题
⏶
9
PresentAgent:用于演示视频生成的多模态智能体
⏶
9
SEAM:跨模态语义等价性基准测试,用于视觉-语言模型
⏶
8
视觉-语言-行动 模型:概念、进展、应用与挑战
⏶
8
视觉语言模型在现实世界中安全吗?一项基于Meme的基准研究
⏶
8
隐藏在众目睽睽之下:VLM 忽视了它们的视觉表征
⏶
8
艺术中的人工智能与错误信息:视觉语言模型能判断画布背后的手还是机器吗?
⏶
8
MEENA(波斯多模态多语言评估):面向N级评估的多模态多语言教育考试
⏶
7
IAG:针对视觉定位的 VLMs 的输入感知后门攻击
⏶
6
VideoGameBench: 视觉-语言模型能否通关热门电子游戏?
⏶
6
通过 LLM 代理的零样本视觉编码器嫁接
⏶
6
SAFEFLOW:面向可信和事务性自主智能体系统的原则性协议
⏶
6
AgroBench:农业视觉语言模型基准
⏶
5
蒸馏用于自回归图像生成的语义感知序列
⏶
5
是否信任你的视觉语言模型的预测
⏶
5
被谜题困扰:当视觉-语言模型无法领会提示时
⏶
5
ChartCap:缓解密集图表标题的幻觉
⏶
5
ViExam:视觉语言模型在越南多模态考试题目上是否优于人类?
⏶
5
MobiAgent:用于可定制移动代理的系统框架
⏶
4
MetaUAS:通过单提示元学习实现通用异常分割
⏶
4
RAVENEA: 一个用于多模态检索增强视觉文化理解的基准
⏶
4
VLM-3R:基于指令对齐三维重建增强的视觉-语言模型
⏶
4
视觉语言模型能否推断人类凝视方向?一项对照研究
⏶
3
Hanfu-Bench:一项关于跨时间文化理解与转译的多模态基准
⏶
3
视觉文档理解与问答:一种支持测试时扩展的多智能体协作框架
⏶
2
GeoRanker:用于全球图像地理定位的距离感知排序
⏶
2
InstructPart:面向任务的部分分割与指令推理
⏶
2
眼见为实,但可信度几何? 对视觉-语言模型中言语化校准的综合分析
⏶
2
CoreMatching:一种用于全面加速视觉-语言模型的、带有 Token 和神经元剪枝的协同自适应稀疏推理框架
⏶
2
朝上吗?通过细粒度多轴感知任务解耦多模态大模型的方向理解
⏶
2
使VLM助手与个性化情境认知对齐
⏶
2
QARI-OCR: 通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别
⏶
2
VLMs 可以聚合分散的训练补丁
⏶
1
Maya 的背后:构建多语言视觉语言模型
⏶
0
通过基于空间的合成世界实现机器人具身认知
⏶
0
IQBench:视觉-语言模型有多“聪明”?一项基于人类智商测试的研究