每日论文

绝对零度：零数据强化自博弈推理

绝对零度：零数据强化自博弈推理

统一的多模态思维链奖励模型：通过强化微调实现

统一的多模态思维链奖励模型：通过强化微调实现

RADLADS：大规模快速注意力蒸馏到线性注意力解码器

RADLADS：大规模快速注意力蒸馏到线性注意力解码器

FlexiAct：面向异构场景的灵活动作控制

FlexiAct：面向异构场景的灵活动作控制

Qwen3量化的一项实证研究

Qwen3量化的一项实证研究

RetroInfer：可扩展长上下文LLM推理的一种向量存储方法

RetroInfer：可扩展长上下文LLM推理的一种向量存储方法

用于全面理解足球的多智能体系统

用于全面理解足球的多智能体系统

从阅读时的眼动中解码开放式信息搜索目标

从阅读时的眼动中解码开放式信息搜索目标

HoloTime: 驯服视频扩散模型用于全景 4D 场景生成

HoloTime: 驯服视频扩散模型用于全景 4D 场景生成

大语言模型的地理空间机理可解释性

大语言模型的地理空间机理可解释性

SWE-smith：为软件工程智能体规模化数据

SWE-smith：为软件工程智能体规模化数据

VITA-Audio: 用于高效大规模语音-语言模型的快速交错跨模态 Token 生成

VITA-Audio: 用于高效大规模语音-语言模型的快速交错跨模态 Token 生成

Scenethesis：一个用于3D场景生成的语言与视觉智能体框架

Scenethesis：一个用于3D场景生成的语言与视觉智能体框架

InfoVids：利用另类的可视化与讲解者关系重塑观众体验

InfoVids：利用另类的可视化与讲解者关系重塑观众体验

哪个智能体在何时导致任务失败？—— 论 LLM 多智能体系统的自动化失败归因

哪个智能体在何时导致任务失败？—— 论 LLM 多智能体系统的自动化失败归因

只在需要时调用接口：大语言模型在问答中的自适应调用

只在需要时调用接口：大语言模型在问答中的自适应调用

Auto-SLURP：用于评估智能个人助理中多智能体框架的基准数据集

Auto-SLURP：用于评估智能个人助理中多智能体框架的基准数据集

训练模型理解 (但不生成) 高风险数据

训练模型理解 (但不生成) 高风险数据

阿尔法超越基准测试

阿尔法超越基准测试