每日论文

Chain-of-Agents：通过多智能体蒸馏和智能体强化学习实现端到端智能体基础模型

Chain-of-Agents：通过多智能体蒸馏和智能体强化学习实现端到端智能体基础模型

LongSplat：用于休闲长视频的鲁棒无姿态3D高斯飞溅

提示编排标记语言

MultiRef: 基于多视觉参考的可控图像生成

MultiRef: 基于多视觉参考的可控图像生成

MM-BrowseComp：用于多模态浏览代理的综合基准测试

MM-BrowseComp：用于多模态浏览代理的综合基准测试

OmniTry：无需蒙版的万物虚拟试穿

OmniTry：无需蒙版的万物虚拟试穿

免训练文本引导的多模态扩散 Transformer 颜色编辑

免训练文本引导的多模态扩散 Transformer 颜色编辑

Embodied-R1：用于通用机器人操作的强化具身推理

使用配置文件感知型大型语言模型作为评估器来评估播客推荐

使用配置文件感知型大型语言模型作为评估器来评估播客推荐

生成过程需谨慎：LLM生成过程中的细粒度置信度估计

生成过程需谨慎：LLM生成过程中的细粒度置信度估计

利用大型语言模型对人类苦难进行预测分析

利用大型语言模型对人类苦难进行预测分析

语音分离的进展：技术、挑战和未来趋势

语音分离的进展：技术、挑战和未来趋势

及时行事事半功倍：语言模型的积极自我完善

及时行事事半功倍：语言模型的积极自我完善

TempFlow-GRPO: 流动模型中 GRPO 的时效性研究

TempFlow-GRPO: 流动模型中 GRPO 的时效性研究

MMAU-Pro：用于音频通用智能整体评估的具有挑战性且全面的基准

MMAU-Pro：用于音频通用智能整体评估的具有挑战性且全面的基准

CAMAR：连续动作多智能体路由

CAMAR：连续动作多智能体路由

大型语言模型版权保护：方法、挑战和趋势综述

大型语言模型版权保护：方法、挑战和趋势综述

利用多模态大型语言模型描述所见内容，以增强视频推荐

利用多模态大型语言模型描述所见内容，以增强视频推荐

用于联合生成式搜索和推荐的语义 ID

用于联合生成式搜索和推荐的语义 ID

Atom-Searcher：通过细粒度的原子思维奖励增强代理深度研究

Atom-Searcher：通过细粒度的原子思维奖励增强代理深度研究

检索增强的精简语言模型推理

Motion2Motion: 基于稀疏对应关系的跨拓扑动作迁移

Motion2Motion: 基于稀疏对应关系的跨拓扑动作迁移

XR中的辐射场：关于辐射场在XR研究中如何被构想和解决的综述

XR中的辐射场：关于辐射场在XR研究中如何被构想和解决的综述

CorrSteer：通过基于相关性的稀疏自编码器特征选择，引导式改进大型语言模型的任务性能和安全性

CorrSteer：通过基于相关性的稀疏自编码器特征选择，引导式改进大型语言模型的任务性能和安全性

MedSAMix：一种用于医学图像分割的免训练模型合并方法

MedSAMix：一种用于医学图像分割的免训练模型合并方法

超越人类判断：对大型语言模型道德价值观理解的贝叶斯评估

超越人类判断：对大型语言模型道德价值观理解的贝叶斯评估

ZARA：通过知识和检索驱动的LLM代理进行零样本运动时间序列分析

ZARA：通过知识和检索驱动的LLM代理进行零样本运动时间序列分析

快速适应新的语音欺骗：在分布变化下合成语音的少样本检测

快速适应新的语音欺骗：在分布变化下合成语音的少样本检测