AI论文精选
视觉语言模型
⏶
130
构建和更好地理解视觉-语言模型:见解和未来方向
⏶
75
SmolVLA:一种经济高效的机器人视觉-语言-动作模型
⏶
73
时间盲区:为什么视频-语言模型无法像人类一样“看”?
⏶
67
MiMo-VL 技术报告
⏶
59
视觉三元统一强化学习:一种强化学习看遍所有
⏶
56
VS-Bench:评估多智能体环境中用于战略推理和决策的视觉-语言模型
⏶
51
Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理
⏶
50
Sherlock: 视觉语言模型中的自校正推理
⏶
48
CSVQA: 一个用于评估VLMs STEM推理能力的中文多模态基准
⏶
45
ZeroGUI:以零人力成本自动化在线GUI学习
⏶
36
OmniSpatial: 迈向视觉语言模型的全面空间推理基准
⏶
28
cadrille: 基于在线强化学习的多模态 CAD 重建
⏶
27
Surfer-H 遇见 Holo1:由开放权重驱动的经济高效 Web 智能体
⏶
22
超越识别:评估视觉语言模型中的视觉视角采择
⏶
22
EfficientLLM: 大语言模型中的效率
⏶
19
简单的半监督知识蒸馏:通过双头优化 (DHO) 从视觉-语言模型
⏶
19
VideoGameQA-Bench: 评估用于电子游戏质量保证的视觉-语言模型
⏶
18
视觉语言模型存在偏见
⏶
17
NOVA: 用于脑部MRI异常定位和临床推理的基准
⏶
16
ChartMuseum: 测试大型视觉-语言模型的视觉推理能力
⏶
15
G-FOCUS: 迈向评估UI设计说服力的一种鲁棒方法
⏶
13
ViPlan:基于符号谓词和视觉语言模型的视觉规划基准
⏶
12
G1: 通过强化学习自举视觉语言模型的感知和推理能力
⏶
11
ViewSpatial-Bench:评估视觉-语言模型中的多视角空间定位能力
⏶
11
用于矢量图形生成的渲染感知强化学习
⏶
10
理性赋能视觉:通过模型合并理解感知和推理
⏶
9
VisualSphinx:用于强化学习 (RL) 的大规模合成视觉逻辑谜题
⏶
8
视觉-语言-行动 模型:概念、进展、应用与挑战
⏶
8
视觉语言模型在现实世界中安全吗?一项基于Meme的基准研究
⏶
6
VideoGameBench: 视觉-语言模型能否通关热门电子游戏?
⏶
5
蒸馏用于自回归图像生成的语义感知序列
⏶
5
通过 LLM 代理的零样本视觉编码器嫁接
⏶
5
是否信任你的视觉语言模型的预测
⏶
5
被谜题困扰:当视觉-语言模型无法领会提示时
⏶
4
MetaUAS:通过单提示元学习实现通用异常分割
⏶
4
RAVENEA: 一个用于多模态检索增强视觉文化理解的基准
⏶
4
VLM-3R:基于指令对齐三维重建增强的视觉-语言模型
⏶
3
Hanfu-Bench:一项关于跨时间文化理解与转译的多模态基准
⏶
2
GeoRanker:用于全球图像地理定位的距离感知排序
⏶
2
InstructPart:面向任务的部分分割与指令推理
⏶
2
眼见为实,但可信度几何? 对视觉-语言模型中言语化校准的综合分析
⏶
2
CoreMatching:一种用于全面加速视觉-语言模型的、带有 Token 和神经元剪枝的协同自适应稀疏推理框架
⏶
2
朝上吗?通过细粒度多轴感知任务解耦多模态大模型的方向理解
⏶
2
使VLM助手与个性化情境认知对齐
⏶
2
QARI-OCR: 通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别
⏶
2
VLMs 可以聚合分散的训练补丁
⏶
1
Maya 的背后:构建多语言视觉语言模型
⏶
0
通过基于空间的合成世界实现机器人具身认知
⏶
0
IQBench:视觉-语言模型有多“聪明”?一项基于人类智商测试的研究