每日论文

NovelSeek: 当智能体成为科学家 -- 从假说到验证构建闭环系统

NovelSeek: 当智能体成为科学家 -- 从假说到验证构建闭环系统

扩展推理，失去控制：评估大型推理模型中的指令遵循能力

扩展推理，失去控制：评估大型推理模型中的指令遵循能力

Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器

Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器

Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理

Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理

KRIS-Bench: 评测下一代智能图像编辑模型

KRIS-Bench: 评测下一代智能图像编辑模型

QuickVideo: 结合系统算法协同设计的实时长视频理解

QuickVideo: 结合系统算法协同设计的实时长视频理解

通过μP高效扩展扩散Transformer

通过μP高效扩展扩散Transformer

LLaDA-V: 带有视觉指令微调的大语言扩散模型

LLaDA-V: 带有视觉指令微调的大语言扩散模型

AceReason-Nemotron: 通过强化学习提升数学和代码推理能力

AceReason-Nemotron: 通过强化学习提升数学和代码推理能力

GoT-R1: 通过强化学习释放 MLLM 用于视觉生成的推理能力

GoT-R1: 通过强化学习释放 MLLM 用于视觉生成的推理能力

基于Itakura-Saito损失的风险规避强化学习

基于Itakura-Saito损失的风险规避强化学习

理解生成式AI在日常图像编辑任务中的能力

理解生成式AI在日常图像编辑任务中的能力

通过自刹车调优使 LLMs 摆脱过度思考

通过自刹车调优使 LLMs 摆脱过度思考

Mind the Gap: 弥合思维跳跃鸿沟以改进思维链调优

Mind the Gap: 弥合思维跳跃鸿沟以改进思维链调优

修复损害性能的数据：级联大型语言模型重新标记难负样本以实现鲁棒信息检索

修复损害性能的数据：级联大型语言模型重新标记难负样本以实现鲁棒信息检索

通过动态令牌雕刻实现免训练的高效视频生成

通过动态令牌雕刻实现免训练的高效视频生成

Dimple: 具有并行解码的离散扩散多模态大语言模型

Dimple: 具有并行解码的离散扩散多模态大语言模型

VideoGameQA-Bench: 评估用于电子游戏质量保证的视觉-语言模型

VideoGameQA-Bench: 评估用于电子游戏质量保证的视觉-语言模型

WebAgent-R1：通过端到端多轮强化学习训练网页代理

WebAgent-R1：通过端到端多轮强化学习训练网页代理

MLLM微调中无需外部引导的后门清理

MLLM微调中无需外部引导的后门清理

SophiaVL-R1: 通过思考奖励强化MLLMs的推理能力

SophiaVL-R1: 通过思考奖励强化MLLMs的推理能力

TinyV: 减少验证中的假阴性以改进LLM推理的强化学习

TinyV: 减少验证中的假阴性以改进LLM推理的强化学习

LaViDa: 一个用于多模态理解的大型扩散语言模型

LaViDa: 一个用于多模态理解的大型扩散语言模型

SpatialScore: 迈向多模态空间理解的统一评估

SpatialScore: 迈向多模态空间理解的统一评估

GRIT: 教导MLLMs使用图像进行思考

GRIT: 教导MLLMs使用图像进行思考

思考还是不思考？通过强化学习实现视觉-语言模型的选择性推理

思考还是不思考？通过强化学习实现视觉-语言模型的选择性推理

强化学习微调大语言模型中的小子网络

强化学习微调大语言模型中的小子网络

MLLM中的无需训练的推理和反思

MLLM中的无需训练的推理和反思

OViP: 在线视觉-语言偏好学习

OViP: 在线视觉-语言偏好学习

AGENTIF：在智能体场景下评估大型语言模型遵循指令的能力

AGENTIF：在智能体场景下评估大型语言模型遵循指令的能力

VLM-R^3：用于增强多模态思维链的区域识别、推理与细化

VLM-R^3：用于增强多模态思维链的区域识别、推理与细化

Multi-SpatialMLLM：多模态大语言模型的多帧空间理解

Multi-SpatialMLLM：多模态大语言模型的多帧空间理解

Think-RM：在生成式奖励模型中实现长周期推理

Think-RM：在生成式奖励模型中实现长周期推理

SafeKey: 增强顿悟时刻洞察以进行安全推理

SafeKey: 增强顿悟时刻洞察以进行安全推理

利用形式化验证工具训练步骤级推理验证器

利用形式化验证工具训练步骤级推理验证器

MUG-Eval：一种适用于任何语言的多语言生成能力代理评估框架

MUG-Eval：一种适用于任何语言的多语言生成能力代理评估框架

引导大语言模型实现机器翻译个性化

引导大语言模型实现机器翻译个性化

RoPECraft: 免训练运动迁移：基于扩散 Transformer 的轨迹引导 RoPE 优化

RoPECraft: 免训练运动迁移：基于扩散 Transformer 的轨迹引导 RoPE 优化

Robo2VLM: 来自大规模真实世界机器人操作数据集的视觉问答

Robo2VLM: 来自大规模真实世界机器人操作数据集的视觉问答

大型语言模型何时承认错误？理解模型信念在撤回中的作用

大型语言模型何时承认错误？理解模型信念在撤回中的作用

大型视觉-语言模型如何看到图像中的文本？揭示OCR头部的独特作用

大型视觉-语言模型如何看到图像中的文本？揭示OCR头部的独特作用

仿生人会梦见电子羊吗？：类人图像蕴含理解与推理框架

仿生人会梦见电子羊吗？：类人图像蕴含理解与推理框架

RAVENEA: 一个用于多模态检索增强视觉文化理解的基准

RAVENEA: 一个用于多模态检索增强视觉文化理解的基准

日期片段：时间推理中分词的一个隐藏瓶颈

日期片段：时间推理中分词的一个隐藏瓶颈

SPhyR：关于材料分布的空间物理推理基准

SPhyR：关于材料分布的空间物理推理基准

gen2seg: 生成模型实现可泛化实例分割

gen2seg: 生成模型实现可泛化实例分割

SAKURA：基于语音和音频信息的大型音频-语言模型的多跳推理

SAKURA：基于语音和音频信息的大型音频-语言模型的多跳推理