每日论文

面向 LLM 的代理强化学习景观：一篇调查报告

面向 LLM 的代理强化学习景观：一篇调查报告

UI-TARS-2 技术报告：通过多轮强化学习推进 GUI 代理

UI-TARS-2 技术报告：通过多轮强化学习推进 GUI 代理

SimpleTIR：用于多轮工具集成推理的端到端强化学习

SimpleTIR：用于多轮工具集成推理的端到端强化学习

LLaVA-Critic-R1：你的批评模型秘密是一个强大的策略模型

LLaVA-Critic-R1：你的批评模型秘密是一个强大的策略模型

VerlTool：迈向以工具使用为核心的整体代理强化学习

VerlTool：迈向以工具使用为核心的整体代理强化学习

ELV-Halluc: 评估长视频理解中的语义聚合幻觉

ELV-Halluc: 评估长视频理解中的语义聚合幻觉

POINTS-Reader：用于文档转换的免蒸馏视觉语言模型自适应

POINTS-Reader：用于文档转换的免蒸馏视觉语言模型自适应

Baichuan-M2：使用大型验证器系统扩展医疗能力

Baichuan-M2：使用大型验证器系统扩展医疗能力

门控联想记忆：用于高效序列建模的并行 O(N) 架构

门控联想记忆：用于高效序列建模的并行 O(N) 架构

Kwai Keye-VL 1.5 技术报告

Kwai Keye-VL 1.5 技术报告

Reasoning Vectors：通过任务算术转移思维链能力

Reasoning Vectors：通过任务算术转移思维链能力

OpenVision 2：用于多模态学习的生成式预训练视觉编码器系列

OpenVision 2：用于多模态学习的生成式预训练视觉编码器系列

通过监督学习框架实现 RLVR 的隐式 Actor-Critic 耦合

通过监督学习框架实现 RLVR 的隐式 Actor-Critic 耦合

联合强化语言模型生成的多样性和质量

联合强化语言模型生成的多样性和质量

GenCompositor：基于扩散 Transformer 的生成视频合成

GenCompositor：基于扩散 Transformer 的生成视频合成

大型语言模型预训练优化器基准测试

大型语言模型预训练优化器基准测试

FlashAdventure：用于 GUI 代理解决多样化冒险游戏中完整故事线上的基准测试

DCPO：动态裁剪策略优化

DynaGuard：一个具有用户定义策略的动态防护模型

DynaGuard：一个具有用户定义策略的动态防护模型

基于嵌入的检索的理论局限性

属性作为文本基因：利用 LLM 作为遗传算法模拟器进行条件合成数据生成

属性作为文本基因：利用 LLM 作为遗传算法模拟器进行条件合成数据生成

M3Ret：通过自监督释放零样本多模态医学图像检索能力

M3Ret：通过自监督释放零样本多模态医学图像检索能力

通用深度研究：自带模型和策略

精彩的预训练优化器及其出处

空房间里的金牌：用 Camlang 诊断 LLM 中的元语言推理

空房间里的金牌：用 Camlang 诊断 LLM 中的元语言推理

MobiAgent：用于可定制移动代理的系统框架

MobiAgent：用于可定制移动代理的系统框架

ViSTA-SLAM：基于对称双视图关联的视觉 SLAM

ViSTA-SLAM：基于对称双视图关联的视觉 SLAM

离散噪声反演用于下一代自回归文本图像编辑

离散噪声反演用于下一代自回归文本图像编辑

SQL-of-Thought：具有引导式错误校正的多代理文本到SQL

SQL-of-Thought：具有引导式错误校正的多代理文本到SQL

Metis：使用先进的低比特量化训练大型语言模型

Metis：使用先进的低比特量化训练大型语言模型

MedDINOv3：如何为医学图像分割自适应视觉基础模型？

MedDINOv3：如何为医学图像分割自适应视觉基础模型？

通过向同行学习来改进大型视觉语言模型

通过向同行学习来改进大型视觉语言模型

AMBEDKAR：通过带知识增强的解码方法进行多级偏见消除，以实现语言模型的鲁棒宪法对齐

AMBEDKAR：通过带知识增强的解码方法进行多级偏见消除，以实现语言模型的鲁棒宪法对齐

FastFit：通过可缓存的扩散模型加速多参考虚拟试穿

FastFit：通过可缓存的扩散模型加速多参考虚拟试穿

通往公平的阶梯：连接群体和个体公平

通往公平的阶梯：连接群体和个体公平

缺陷还是人造物？重新思考评估大型语言模型的提示敏感性

缺陷还是人造物？重新思考评估大型语言模型的提示敏感性

月光风味：面向边缘设备的微型专用ASR模型

月光风味：面向边缘设备的微型专用ASR模型

面向点云学习，追求更多样化和更具挑战性的预训练：通过解耦视图进行自监督交叉重建

面向点云学习，追求更多样化和更具挑战性的预训练：通过解耦视图进行自监督交叉重建

C-DiffDet+：融合全局场景上下文和生成去噪以实现高保真目标检测

C-DiffDet+：融合全局场景上下文和生成去噪以实现高保真目标检测