每日论文

关于SFT泛化性的研究：一个带有奖励修正的强化学习视角

关于SFT泛化性的研究：一个带有奖励修正的强化学习视角

R-Zero：从零数据中自我演进的推理大型语言模型

R-Zero：从零数据中自我演进的推理大型语言模型

Genie Envisioner：一个用于机器人操作的统一世界基础平台

Genie Envisioner：一个用于机器人操作的统一世界基础平台

DeepPHY：对具身VLM进行物理推理的基准测试

DeepPHY：对具身VLM进行物理推理的基准测试

Hi3DEval：通过分层有效性推进3D生成评估

Hi3DEval：通过分层有效性推进3D生成评估

当今的大型语言模型准备好解释幸福概念了吗？

当今的大型语言模型准备好解释幸福概念了吗？

我们是否在评估文档检索增强生成方面走在正确的道路上？

我们是否在评估文档检索增强生成方面走在正确的道路上？

无需过度思考：R1风格高效大型推理模型综述

无需过度思考：R1风格高效大型推理模型综述

Marco-Voice 技术报告

Marco-Voice 技术报告

CoAct-1：编码为行动的计算机使用智能体

CoAct-1：编码为行动的计算机使用智能体

大型多模态模型能否主动识别错误输入？对其输入审查能力的系统评估框架

大型多模态模型能否主动识别错误输入？对其输入审查能力的系统评估框架

MOSEv2：一个用于复杂场景视频对象分割的更具挑战性的数据集

MOSEv2：一个用于复杂场景视频对象分割的更具挑战性的数据集

评估、合成和增强客户支持对话

InfiAlign: 一种可扩展且样本高效的框架，用于对齐大型语言模型以增强推理能力

InfiAlign: 一种可扩展且样本高效的框架，用于对齐大型语言模型以增强推理能力

StrandDesigner：通过草图引导实现实用链条生成

StrandDesigner：通过草图引导实现实用链条生成

用富保真度解码器引导一步扩散模型用于快速图像压缩

用富保真度解码器引导一步扩散模型用于快速图像压缩

学习推理以探究事实性

注意力盆地：为什么上下文定位在大型语言模型中很重要

注意力盆地：为什么上下文定位在大型语言模型中很重要

视觉文档理解与问答：一种支持测试时扩展的多智能体协作框架

视觉文档理解与问答：一种支持测试时扩展的多智能体协作框架

轻量级掩码解码：释放多模态大语言模型在指代表达式分割中的潜力

轻量级掩码解码：释放多模态大语言模型在指代表达式分割中的潜力

跳跃、略过与过度思考：诊断推理模型在多跳分析中失误的原因

跳跃、略过与过度思考：诊断推理模型在多跳分析中失误的原因

PRvL：量化大型语言模型用于个人身份信息（PII）修订的能力和风险

PRvL：量化大型语言模型用于个人身份信息（PII）修订的能力和风险

我思故我在（不胜任）？用于评估大型语言模型招聘评估中语言门槛（shibboleth）检测的基准

我思故我在（不胜任）？用于评估大型语言模型招聘评估中语言门槛（shibboleth）检测的基准

I2CR: 多模态实体链接的模内和模间协同反思

I2CR: 多模态实体链接的模内和模间协同反思

REINA: 基于正则化熵信息的损失函数，用于高效的同步语音翻译

REINA: 基于正则化熵信息的损失函数，用于高效的同步语音翻译

RPCANet++：用于稀疏对象分割的深度可解释鲁棒主成分分析

RPCANet++：用于稀疏对象分割的深度可解释鲁棒主成分分析