AI论文精选
每日论文
◀
06月04日
▶
⏶
170
反思、重试、奖励:基于强化学习的LLM自我改进
⏶
57
UniWorld:用于统一视觉理解与生成的高分辨率语义编码器
⏶
56
VS-Bench:评估多智能体环境中用于战略推理和决策的视觉-语言模型
⏶
50
SynthRL:通过可验证数据合成扩展视觉推理
⏶
48
CSVQA: 一个用于评估VLMs STEM推理能力的中文多模态基准
⏶
38
GUI-Actor: 针对GUI智能体的无坐标视觉定位
⏶
36
OmniSpatial: 迈向视觉语言模型的全面空间推理基准
⏶
35
FinMME:用于金融多模态推理评估的基准数据集
⏶
34
OThink-R1: 内在快/慢思维模式切换,旨在缓解过度推理
⏶
32
视觉具身大脑:让多模态大语言模型在空间中看、思考和控制
⏶
27
DINGO: 针对扩散式大语言模型的约束推理
⏶
27
Sparse-vDiT:释放稀疏注意力潜能,加速视频扩散Transformer
⏶
26
Robot-R1:用于增强机器人具身推理的强化学习
⏶
25
MotionSight:提升多模态大型语言模型中的细粒度运动理解
⏶
22
通过强化学习协同演化大语言模型编码器和单元测试器
⏶
22
AnimeShooter:一个用于参考引导视频生成的多镜头动画数据集
⏶
21
负引导的主体保真度优化以实现零样本主体驱动生成
⏶
18
LumosFlow: 运动引导的长视频生成
⏶
17
原生分辨率图像合成
⏶
15
RelationAdapter:结合扩散Transformer学习和迁移视觉关系
⏶
14
FlowMo:基于方差的流引导实现视频生成中的连贯运动
⏶
14
DCM: 高效高质量视频生成的双专家一致性模型
⏶
12
数据表还不够:DataRubrics:用于自动化质量指标和问责制
⏶
10
PCoreSet:通过视觉-语言模型知识蒸馏实现高效主动学习
⏶
10
Ctrl-Crash: 可控扩散生成逼真汽车碰撞
⏶
9
利用程序分析反馈训练语言模型生成高质量代码
⏶
8
自我挑战的语言模型智能体
⏶
7
运动感知概念对齐,实现一致的视频编辑
⏶
6
通过自适应并行解码加速扩散大语言模型
⏶
6
ORV: 4D 基于占用率的机器人视频生成
⏶
3
多模态 DeepResearcher:采用代理框架从零开始生成文本-图表交错报告
⏶
3
开源推理模型缺失的一环:用于缓解强化学习中短CoT大语言模型冷启动的数据集
⏶
3
ReFoCUS:用于语境理解的强化引导帧优化
⏶
3
FuseLIP:通过离散令牌的早期融合实现多模态嵌入
⏶
3
多少回溯才足够?探索SFT和RL在增强LLM推理能力中的相互作用
⏶
3
Hanfu-Bench:一项关于跨时间文化理解与转译的多模态基准
⏶
3
深度视频发现:用于长视频理解的使用工具的智能体搜索
⏶
3
MERIT: 多语言语义检索与交错式多条件查询
⏶
3
分享: 一种基于SLM的文本到SQL分层动作校正助手
⏶
3
角度不会骗人:通过模型自身信号解锁高效强化学习
⏶
2
M^3FinMeeting:一个多语言、多行业、多任务的金融会议理解评估数据集
⏶
2
R^2ec:迈向具备推理能力的大型推荐模型
⏶
2
先知后言:LLM表示编码了关于思维链在完成前成功的信息
⏶
2
QARI-OCR: 通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别
⏶
2
太长不看:过长内容,通过重新加权实现高效LLM推理压缩
⏶
2
基于生成先验的可控人体关键帧插值
⏶
2
Control-R:迈向可控的测试时缩放
⏶
1
重温 LRP:位置归因是Transformer可解释性中缺失的要素
⏶
1
超越情境学习:通过任务固有的属性指导原则,对齐大型语言模型的长篇生成
⏶
1
ByteMorph:非刚性运动的指令引导图像编辑基准测试