每日论文

学习在离策略指导下进行推理

Eagle 2.5：提升前沿视觉-语言模型的长上下文后训练

Eagle 2.5：提升前沿视觉-语言模型的长上下文后训练

FlowReasoner：增强查询级元代理

FlowReasoner：增强查询级元代理

ToolRL：奖励是工具学习的全部需求

ToolRL：奖励是工具学习的全部需求

OTC：基于强化学习的最优工具调用

OTC：基于强化学习的最优工具调用

X-Teaming：使用自适应多智能体的多轮越狱和防御

X-Teaming：使用自适应多智能体的多轮越狱和防御

UFO2：桌面代理操作系统

SphereDiff：通过球形潜在表示进行免调优的全方位全景图像和视频生成

SphereDiff：通过球形潜在表示进行免调优的全方位全景图像和视频生成

THOUGHTTERMINATOR: 推理模型中的基准测试、校准和过度思考的抑制

THOUGHTTERMINATOR: 推理模型中的基准测试、校准和过度思考的抑制

从另一个角度看：评估 MLLM 中的多视图理解

从另一个角度看：评估 MLLM 中的多视图理解

StyleMe3D：在 3D 高斯上通过多编码器和解耦先验进行风格化

StyleMe3D：在 3D 高斯上通过多编码器和解耦先验进行风格化

EasyEdit2：易于使用的指导框架，用于编辑大型语言模型

EasyEdit2：易于使用的指导框架，用于编辑大型语言模型

Uni3C：统一精确地三维增强型相机和人体运动控制，用于视频生成

LeetCodeDataset：用于代码 LLM 的稳健评估和高效训练的时间数据集

LeetCodeDataset：用于代码 LLM 的稳健评估和高效训练的时间数据集

InfiGUI-R1：将多模态 GUI 代理从反应式执行者提升到审慎推理器

InfiGUI-R1：将多模态 GUI 代理从反应式执行者提升到审慎推理器

LearnAct：具有统一演示基准的少样本移动 GUI 代理

LearnAct：具有统一演示基准的少样本移动 GUI 代理

DRAGON：分布奖励优化扩散生成模型

用于通过强化压缩视频立方体实现高效视频理解的 LMM

用于通过强化压缩视频立方体实现高效视频理解的 LMM

TAPIP3D：在持久的3D几何中跟踪任何点

TAPIP3D：在持久的3D几何中跟踪任何点

LookingGlass：通过拉普拉斯金字塔扭曲的生成式变形

LookingGlass：通过拉普拉斯金字塔扭曲的生成式变形

NEMOTRON-CROSSTHINK：将自学习扩展到数学推理之外

NEMOTRON-CROSSTHINK：将自学习扩展到数学推理之外

RainbowPlus：通过进化质量-多样性搜索增强对抗性提示生成

RainbowPlus：通过进化质量-多样性搜索增强对抗性提示生成

RF-DETR 目标检测对比YOLOv12：基于Transformer和CNN架构在复杂果园环境下标签模糊性下的单类别与多类别青果检测研究

RF-DETR 目标检测对比YOLOv12：基于Transformer和CNN架构在复杂果园环境下标签模糊性下的单类别与多类别青果检测研究

PROMPTEVALS：一个用于定制生产大语言模型管线的断言和护栏数据集

PROMPTEVALS：一个用于定制生产大语言模型管线的断言和护栏数据集

CoMotion：并发多人 3D 运动

CoMotion：并发多人 3D 运动

LoftUp：学习用于视觉基础模型的基于坐标的特征上采样器

LoftUp：学习用于视觉基础模型的基于坐标的特征上采样器

掷骰子，三思而后行：超越下一个 token 预测的创造性限制

掷骰子，三思而后行：超越下一个 token 预测的创造性限制

SilVar-Med：用于医学影像中可解释异常检测的语音驱动视觉语言模型

SilVar-Med：用于医学影像中可解释异常检测的语音驱动视觉语言模型