每日论文

FlashWorld：在几秒钟内生成高质量的 3D 场景

UniMoE-Audio：通过动态容量 MoE 实现统一的语音和音乐生成

UniMoE-Audio：通过动态容量 MoE 实现统一的语音和音乐生成

注意力照亮大模型推理：预规划与锚定节奏赋能细粒度策略优化

注意力照亮大模型推理：预规划与锚定节奏赋能细粒度策略优化

Bee：一个高质量语料库和全栈套件，用于解锁高级全开源 MLLM

Bee：一个高质量语料库和全栈套件，用于解锁高级全开源 MLLM

LIBERO-Plus：视觉-语言-动作模型的深入鲁棒性分析

LIBERO-Plus：视觉-语言-动作模型的深入鲁棒性分析

PhysMaster：通过强化学习掌握视频生成物理表征

PhysMaster：通过强化学习掌握视频生成物理表征

Trace Anything：通过轨迹场在 4D 中表示任何视频

Trace Anything：通过轨迹场在 4D 中表示任何视频

InteractiveOmni: 一个统一的全模态模型，用于音频-视觉多轮对话

InteractiveOmni: 一个统一的全模态模型，用于音频-视觉多轮对话

大规模语言模型（LLM）强化学习计算的艺术

大规模语言模型（LLM）强化学习计算的艺术

ParallelBench：理解扩散 LLM 中并行解码的权衡

ParallelBench：理解扩散 LLM 中并行解码的权衡

齐心协力：用于协作式大型语言模型的在线强化学习

齐心协力：用于协作式大型语言模型的在线强化学习

生成式通用验证器作为多模态元推理器

生成式通用验证器作为多模态元推理器

CVD-STORM：用于自动驾驶的跨视图视频扩散和时空重建模型

CVD-STORM：用于自动驾驶的跨视图视频扩散和时空重建模型

InternVLA-M1：一个用于通才机器人策略的空间引导视觉-语言-动作框架

InternVLA-M1：一个用于通才机器人策略的空间引导视觉-语言-动作框架

通过在世界中的基础进行空间推理

通过在世界中的基础进行空间推理

计算资源在出版基础模型研究中的作用

计算资源在出版基础模型研究中的作用

X-VLA：软提示Transformer作为可扩展的跨具身视觉-语言-动作模型

X-VLA：软提示Transformer作为可扩展的跨具身视觉-语言-动作模型

UniME-V2：MLLM 作为通用多模态嵌入学习的裁判

UniME-V2：MLLM 作为通用多模态嵌入学习的裁判

基于掩码降质分类的通用图像修复预训练

基于掩码降质分类的通用图像修复预训练

生成式搜索引擎的偏好以及如何协同优化网络内容

生成式搜索引擎的偏好以及如何协同优化网络内容

Uni-MMMU：一个海量跨学科多模态统一基准

Uni-MMMU：一个海量跨学科多模态统一基准

重新审视模型插值以实现高效推理

重新审视模型插值以实现高效推理

FG-CLIP 2：一个双语细粒度视觉语言对齐模型

FG-CLIP 2：一个双语细粒度视觉语言对齐模型

少即是多：通过最少的测试时干预来改进 LLM 推理

少即是多：通过最少的测试时干预来改进 LLM 推理

直接多令牌解码

Hard2Verify：面向开放式前沿数学的步进式验证基准

Hard2Verify：面向开放式前沿数学的步进式验证基准

NOSA：原生且可卸载的稀疏注意力

NOSA：原生且可卸载的稀疏注意力

CoIRL-AD：用于自动驾驶的潜世界模型中的协作-竞争模仿-强化学习

CoIRL-AD：用于自动驾驶的潜世界模型中的协作-竞争模仿-强化学习

HyperAgent：利用超图进行多智能体通信中的拓扑优化

HyperAgent：利用超图进行多智能体通信中的拓扑优化

通过玩随机玩具学习掌握任何东西

通过玩随机玩具学习掌握任何东西

MTSQL-R1：通过代理训练实现长程多轮文本到 SQL

MTSQL-R1：通过代理训练实现长程多轮文本到 SQL

GraphTracer：用于鲁棒性多轮深度搜索的 LLM 智能体的图引导故障追踪

GraphTracer：用于鲁棒性多轮深度搜索的 LLM 智能体的图引导故障追踪

不要扔掉你的预训练模型

KVCOMM：用于高效 LLM 多代理系统的在线跨上下文 KV 缓存通信

点提示：使用视频扩散模型的反事实跟踪

分层频率标记探针 (HFTP)：一种统一的方法来研究大型语言模型和人脑中的句法结构表征

分层频率标记探针 (HFTP)：一种统一的方法来研究大型语言模型和人脑中的句法结构表征

MATH-Beyond：一个用于强化学习超越基础模型的基准

MATH-Beyond：一个用于强化学习超越基础模型的基准

EAGER：用于自适应推理时间缩放的熵感知生成

EAGER：用于自适应推理时间缩放的熵感知生成

延迟：通过设备端纠正消除远程推理延迟

延迟：通过设备端纠正消除远程推理延迟

Haystack 工程：异构和智能体长上下文评估的上下文工程

Haystack 工程：异构和智能体长上下文评估的上下文工程

追踪痕迹：高效准确推理的潜在时间信号

追踪痕迹：高效准确推理的潜在时间信号

游戏对话的去诽谤化：在基于 LLM 的 NPC 中平衡角色真实性与任务执行

游戏对话的去诽谤化：在基于 LLM 的 NPC 中平衡角色真实性与任务执行

评估语言模型对游戏的评估