每日论文

ComfyUI-Copilot：用于自动化工作流开发的智能助手

Qwen3 Embedding：通过基础模型改进文本嵌入和重排序

Qwen3 Embedding：通过基础模型改进文本嵌入和重排序

SeedVR2：通过扩散对抗后训练实现一步视频恢复

具有长期空间记忆的视频世界模型

RoboRefer：迈向机器人视觉语言模型中具有推理的空间指代

RoboRefer：迈向机器人视觉语言模型中具有推理的空间指代

The Common Pile v0.1：一个包含 8TB 公有领域和开放许可文本的数据集

The Common Pile v0.1：一个包含 8TB 公有领域和开放许可文本的数据集

对角批处理解锁循环记忆 Transformer 在长上下文中的并行性

对角批处理解锁循环记忆 Transformer 在长上下文中的并行性

Surfer-H 遇见 Holo1：由开放权重驱动的经济高效 Web 智能体

Surfer-H 遇见 Holo1：由开放权重驱动的经济高效 Web 智能体

带 KV 缓存压缩的推理时超缩放

带 KV 缓存压缩的推理时超缩放

使用流先验对齐潜在空间

VideoREPA：通过与基础模型的关系对齐学习视频生成物理

VideoREPA：通过与基础模型的关系对齐学习视频生成物理

VideoMathQA：通过视频中的多模态理解基准测试数学推理

AV-Reasoner：改进和基准测试 MLLM 的线索导向音视频计数

AV-Reasoner：改进和基准测试 MLLM 的线索导向音视频计数

评估是你所需要的一切：通过评估设计策略性地夸大 LLM 推理能力

评估是你所需要的一切：通过评估设计策略性地夸大 LLM 推理能力

展开空间认知：评估视觉模拟上的多模态模型

展开空间认知：评估视觉模拟上的多模态模型

搜索竞技场：分析搜索增强型大语言模型

搜索竞技场：分析搜索增强型大语言模型

SparseMM：MLLM 中视觉概念响应产生的头部稀疏性

SparseMM：MLLM 中视觉概念响应产生的头部稀疏性

StreamBP：LLM 长序列训练的内存高效精确反向传播

StreamBP：LLM 长序列训练的内存高效精确反向传播

EOC-Bench：MLLM 能否在自我中心世界中识别、回忆和预测物体？

EOC-Bench：MLLM 能否在自我中心世界中识别、回忆和预测物体？

FlexPainter：灵活且多视图一致的纹理生成

FlexPainter：灵活且多视图一致的纹理生成

MINT-CoT：在数学思维链推理中实现交错视觉令牌

MINT-CoT：在数学思维链推理中实现交错视觉令牌

使用固定文本编码器进行语言-图像对齐

使用固定文本编码器进行语言-图像对齐

重新审视前馈 3D 高斯泼溅的深度表示

重新审视前馈 3D 高斯泼溅的深度表示

通过词法偏置的自回归图像水印：一种抵抗再生成攻击的方法

通过词法偏置的自回归图像水印：一种抵抗再生成攻击的方法

SkyReels-Audio：视频扩散转换器中全向音频条件下的说话肖像

SkyReels-Audio：视频扩散转换器中全向音频条件下的说话肖像

几何可编辑且外观保持的物体合成

几何可编辑且外观保持的物体合成

FreeTimeGS：随时随地免费高斯用于动态场景重建

FreeTimeGS：随时随地免费高斯用于动态场景重建

动力学：重新思考测试时缩放定律

动力学：重新思考测试时缩放定律

用于鲁棒比较开放基础语言-视觉模型和数据集的缩放定律

用于鲁棒比较开放基础语言-视觉模型和数据集的缩放定律

MedAgentGym：大规模训练用于基于代码的医学推理的 LLM 代理

MedAgentGym：大规模训练用于基于代码的医学推理的 LLM 代理

通过推理和强化学习实现 LLM 中的上下文完整性

通过推理和强化学习实现 LLM 中的上下文完整性

RobustSplat：解耦致密化和动力学以实现无瞬变的 3DGS

图像具有可变长度的表示形式

图像具有可变长度的表示形式

校正点流：通用点云姿态估计

Micro-Act：通过可操作的自我推理缓解问答中的知识冲突

Micro-Act：通过可操作的自我推理缓解问答中的知识冲突

FEAT：用于医学视频生成的全维度高效注意力Transformer

FEAT：用于医学视频生成的全维度高效注意力Transformer

BEVCALIB：通过几何引导的鸟瞰图表示进行激光雷达-相机校准

BEVCALIB：通过几何引导的鸟瞰图表示进行激光雷达-相机校准

自动驾驶中用于 3D 占用预测的基于扩散的生成模型

自动驾驶中用于 3D 占用预测的基于扩散的生成模型

SViMo：手物交互场景中视频与动作生成的同步扩散

SViMo：手物交互场景中视频与动作生成的同步扩散

水印损害语言模型中的对齐：分析与缓解

水印损害语言模型中的对齐：分析与缓解

MARBLE：CLIP空间中的材料重组与混合

MARBLE：CLIP空间中的材料重组与混合

FlowDirector：免训练流向引导实现精准文本到视频编辑

FlowDirector：免训练流向引导实现精准文本到视频编辑

感知解耦：通过奖励优化描述生成实现可扩展的多模态推理

感知解耦：通过奖励优化描述生成实现可扩展的多模态推理

重新思考全身 CT 图像解读：以异常为中心的方法

重新思考全身 CT 图像解读：以异常为中心的方法

PATS：用于多视图运动技能评估的熟练度感知时间采样

PATS：用于多视图运动技能评估的熟练度感知时间采样

自监督语音模型对荷兰语了解多少？分析特定语言预训练的优势

自监督语音模型对荷兰语了解多少？分析特定语言预训练的优势