AI论文精选
每日论文
◀
09月03日
▶
⏶
140
面向 LLM 的代理强化学习景观:一篇调查报告
⏶
99
UI-TARS-2 技术报告:通过多轮强化学习推进 GUI 代理
⏶
76
SimpleTIR:用于多轮工具集成推理的端到端强化学习
⏶
74
LLaVA-Critic-R1:你的批评模型秘密是一个强大的策略模型
⏶
59
VerlTool:迈向以工具使用为核心的整体代理强化学习
⏶
52
ELV-Halluc: 评估长视频理解中的语义聚合幻觉
⏶
42
POINTS-Reader:用于文档转换的免蒸馏视觉语言模型自适应
⏶
32
Baichuan-M2:使用大型验证器系统扩展医疗能力
⏶
32
门控联想记忆:用于高效序列建模的并行 O(N) 架构
⏶
29
Kwai Keye-VL 1.5 技术报告
⏶
27
Reasoning Vectors:通过任务算术转移思维链能力
⏶
24
OpenVision 2:用于多模态学习的生成式预训练视觉编码器系列
⏶
22
通过监督学习框架实现 RLVR 的隐式 Actor-Critic 耦合
⏶
22
联合强化语言模型生成的多样性和质量
⏶
20
GenCompositor:基于扩散 Transformer 的生成视频合成
⏶
20
大型语言模型预训练优化器基准测试
⏶
18
FlashAdventure:用于 GUI 代理解决多样化冒险游戏中完整故事线上的基准测试
⏶
18
DCPO:动态裁剪策略优化
⏶
17
DynaGuard:一个具有用户定义策略的动态防护模型
⏶
14
基于嵌入的检索的理论局限性
⏶
13
属性作为文本基因:利用 LLM 作为遗传算法模拟器进行条件合成数据生成
⏶
11
M3Ret:通过自监督释放零样本多模态医学图像检索能力
⏶
10
通用深度研究:自带模型和策略
⏶
10
精彩的预训练优化器及其出处
⏶
10
空房间里的金牌:用 Camlang 诊断 LLM 中的元语言推理
⏶
5
MobiAgent:用于可定制移动代理的系统框架
⏶
5
ViSTA-SLAM:基于对称双视图关联的视觉 SLAM
⏶
4
离散噪声反演用于下一代自回归文本图像编辑
⏶
3
SQL-of-Thought:具有引导式错误校正的多代理文本到SQL
⏶
3
Metis:使用先进的低比特量化训练大型语言模型
⏶
2
MedDINOv3:如何为医学图像分割自适应视觉基础模型?
⏶
2
通过向同行学习来改进大型视觉语言模型
⏶
2
AMBEDKAR:通过带知识增强的解码方法进行多级偏见消除,以实现语言模型的鲁棒宪法对齐
⏶
2
FastFit:通过可缓存的扩散模型加速多参考虚拟试穿
⏶
2
通往公平的阶梯:连接群体和个体公平
⏶
2
缺陷还是人造物?重新思考评估大型语言模型的提示敏感性
⏶
2
月光风味:面向边缘设备的微型专用ASR模型
⏶
1
面向点云学习,追求更多样化和更具挑战性的预训练:通过解耦视图进行自监督交叉重建
⏶
1
C-DiffDet+:融合全局场景上下文和生成去噪以实现高保真目标检测
◀ 前一日
后一日 ▶