每日论文

Mutarjim: 使用小型语言模型推进双向阿拉伯语-英语翻译

Mutarjim: 使用小型语言模型推进双向阿拉伯语-英语翻译

将AI效率从模型中心转向数据中心压缩

将AI效率从模型中心转向数据中心压缩

Alchemist: 将公共文本到图像数据转化为生成式黄金

Alchemist: 将公共文本到图像数据转化为生成式黄金

BizFinBench：一个用于评估大型语言模型的业务驱动型真实世界金融基准

BizFinBench：一个用于评估大型语言模型的业务驱动型真实世界金融基准

具身智能体遇见个性化：探索记忆利用实现个性化辅助

具身智能体遇见个性化：探索记忆利用实现个性化辅助

PATS: 过程级自适应思维模式切换

PATS: 过程级自适应思维模式切换

ARM：自适应推理模型

Enigmata：使用合成可验证谜题扩展大型语言模型的逻辑推理能力

Enigmata：使用合成可验证谜题扩展大型语言模型的逻辑推理能力

解读轨迹辅助的LLM推理：一个优化视角

解读轨迹辅助的LLM推理：一个优化视角

B-score：利用响应历史检测大语言模型中的偏见

B-score：利用响应历史检测大语言模型中的偏见

格式和长度的替代信号：通过强化学习解决无标准答案的数学问题

格式和长度的替代信号：通过强化学习解决无标准答案的数学问题

Flex-Judge：一次思考，随处评判

Flex-Judge：一次思考，随处评判

无需外部奖励的学习推理

MOOSE-Chem2：通过分层搜索探索LLM在细粒度科学假设发现中的极限

MOOSE-Chem2：通过分层搜索探索LLM在细粒度科学假设发现中的极限

MLLMs能指引我回家吗？一项基于交通地图的细粒度视觉推理基准研究

MLLMs能指引我回家吗？一项基于交通地图的细粒度视觉推理基准研究

语言模型的终身安全对齐

ModernGBERT：从头开始训练的德语专用10亿参数编码器模型

ModernGBERT：从头开始训练的德语专用10亿参数编码器模型

Jodi: 通过联合建模统一视觉生成与理解

Jodi: 通过联合建模统一视觉生成与理解

强化微调增强多模态大语言模型的推理能力

强化微调增强多模态大语言模型的推理能力

StructEval：评估 LLMs 生成结构化输出能力的基准

StructEval：评估 LLMs 生成结构化输出能力的基准

离散马尔可夫桥

Omni-R1：基于双系统协作实现全模态推理的强化学习

Omni-R1：基于双系统协作实现全模态推理的强化学习

REARANK：通过强化学习的推理重排序代理

REARANK：通过强化学习的推理重排序代理

Hybrid Neural-MPM：用于实时交互式流体模拟

Hybrid Neural-MPM：用于实时交互式流体模拟

哪些数据属性激发了数学和代码推理？一项通过影响函数的研究

哪些数据属性激发了数学和代码推理？一项通过影响函数的研究

氛围式编码 vs. 智能体化编码：智能体人工智能的基本原理与实际影响

氛围式编码 vs. 智能体化编码：智能体人工智能的基本原理与实际影响

AdaCtrl: 通过难度感知预算实现自适应和可控推理

AdaCtrl: 通过难度感知预算实现自适应和可控推理

带有尺度感知KV缓存压缩的内存高效视觉自回归建模

带有尺度感知KV缓存压缩的内存高效视觉自回归建模

完成胜于完美：通过结构化多轮分解解锁高效推理

完成胜于完美：通过结构化多轮分解解锁高效推理

WHISTRESS：通过句子重音检测丰富转录

WHISTRESS：通过句子重音检测丰富转录

G1: 通过强化学习自举视觉语言模型的感知和推理能力

G1: 通过强化学习自举视觉语言模型的感知和推理能力

通过强化学习实现的大型语言模型交错推理

通过强化学习实现的大型语言模型交错推理

探索高效推理：面向CoT蒸馏的数据中心基准

探索高效推理：面向CoT蒸馏的数据中心基准

大型多模态模型中用于细粒度几何理解的难负样本对比学习

大型多模态模型中用于细粒度几何理解的难负样本对比学习

力提示：视频生成模型可以学习和泛化基于物理的控制信号

力提示：视频生成模型可以学习和泛化基于物理的控制信号

InfantAgent-Next：一个用于自动化计算机交互的多模态通用智能体

InfantAgent-Next：一个用于自动化计算机交互的多模态通用智能体

MLR-Bench: 评估人工智能代理在开放式机器学习研究中的表现

MLR-Bench: 评估人工智能代理在开放式机器学习研究中的表现

从数十小时到数万小时：扩展用于语音识别的回译

从数十小时到数万小时：扩展用于语音识别的回译

WINA：用于加速大语言模型推理的权重感知神经元激活

WINA：用于加速大语言模型推理的权重感知神经元激活

LLaDA 1.5: 大型语言扩散模型的方差降低偏好优化

LLaDA 1.5: 大型语言扩散模型的方差降低偏好优化

STAR-R1：通过强化多模态大语言模型实现空间变换推理

STAR-R1：通过强化多模态大语言模型实现空间变换推理

覆盖原理：理解组合泛化的框架

针对攻击性网络安全智能体的动态风险评估

针对攻击性网络安全智能体的动态风险评估

针对大规模数据集和（中等规模）大型语言模型的强成员推理攻击

针对大规模数据集和（中等规模）大型语言模型的强成员推理攻击

重新思考用于LLM推理的强化学习中的采样标准：一个能力-难度对齐视角

重新思考用于LLM推理的强化学习中的采样标准：一个能力-难度对齐视角

通过 Mirror Prox 加速来自人类反馈的纳什学习

通过 Mirror Prox 加速来自人类反馈的纳什学习

不要“过度思考”段落重排序：推理真的必要吗？

不要“过度思考”段落重排序：推理真的必要吗？

观点：机制可解释性应优先考虑SAEs中的特征一致性

观点：机制可解释性应优先考虑SAEs中的特征一致性

DoctorAgent-RL：一个用于多轮临床对话的多智能体协作强化学习系统

DoctorAgent-RL：一个用于多轮临床对话的多智能体协作强化学习系统

通过强化学习的混合潜在推理

GLEAM：学习在复杂三维室内场景中主动建图的可泛化探索策略

GLEAM：学习在复杂三维室内场景中主动建图的可泛化探索策略

一种抵御大型语言模型擦除攻击的简单防御

一种抵御大型语言模型擦除攻击的简单防御

在数学推理中衔接监督学习与强化学习

在数学推理中衔接监督学习与强化学习

错误类型划分以获得更智能的奖励：使用错误感知的分层监督改进过程奖励模型

错误类型划分以获得更智能的奖励：使用错误感知的分层监督改进过程奖励模型

EquivPruner：通过动作剪枝提升基于LLM的搜索的效率和质量

EquivPruner：通过动作剪枝提升基于LLM的搜索的效率和质量

用于批内数据窃取和模型推理操纵的架构后门

用于批内数据窃取和模型推理操纵的架构后门

UFT：统一监督与强化微调

大型音视语言模型综合评估展望：一项全面综述

大型音视语言模型综合评估展望：一项全面综述

TAGS：一个具有检索增强推理和验证的测试时通用-专家框架

TAGS：一个具有检索增强推理和验证的测试时通用-专家框架

FLAME-MoE：一个用于混合专家语言模型的透明端到端研究平台

FLAME-MoE：一个用于混合专家语言模型的透明端到端研究平台

InstructPart：面向任务的部分分割与指令推理

InstructPart：面向任务的部分分割与指令推理

MMIG-Bench：迈向全面和可解释的多模态图像生成模型评估

MMIG-Bench：迈向全面和可解释的多模态图像生成模型评估

DiSA: 自回归图像生成中的扩散步退火

DiSA: 自回归图像生成中的扩散步退火

眼见为实，但可信度几何？对视觉-语言模型中言语化校准的综合分析

眼见为实，但可信度几何？对视觉-语言模型中言语化校准的综合分析

机器的语用心智：追溯大型语言模型中语用能力的涌现

机器的语用心智：追溯大型语言模型中语用能力的涌现

MOLE: 使用大型语言模型提取和验证科学论文中的元数据

MOLE: 使用大型语言模型提取和验证科学论文中的元数据

用于离线目标条件强化学习的选项感知时间抽象值

用于离线目标条件强化学习的选项感知时间抽象值

知识的诞生：大型语言模型中跨时间、空间和尺度的涌现特征

知识的诞生：大型语言模型中跨时间、空间和尺度的涌现特征

EgoZero：从智能眼镜中学习的机器人

EgoZero：从智能眼镜中学习的机器人

文本引导向量可以在多模态大语言模型中提升视觉理解

文本引导向量可以在多模态大语言模型中提升视觉理解