AI论文精选
每日论文
◀
06月06日
▶
⏶
65
ComfyUI-Copilot:用于自动化工作流开发的智能助手
⏶
61
Qwen3 Embedding:通过基础模型改进文本嵌入和重排序
⏶
56
SeedVR2:通过扩散对抗后训练实现一步视频恢复
⏶
52
具有长期空间记忆的视频世界模型
⏶
39
RoboRefer:迈向机器人视觉语言模型中具有推理的空间指代
⏶
39
The Common Pile v0.1:一个包含 8TB 公有领域和开放许可文本的数据集
⏶
37
对角批处理解锁循环记忆 Transformer 在长上下文中的并行性
⏶
30
Surfer-H 遇见 Holo1:由开放权重驱动的经济高效 Web 智能体
⏶
27
带 KV 缓存压缩的推理时超缩放
⏶
25
使用流先验对齐潜在空间
⏶
24
VideoREPA:通过与基础模型的关系对齐学习视频生成物理
⏶
24
VideoMathQA:通过视频中的多模态理解基准测试数学推理
⏶
20
AV-Reasoner:改进和基准测试 MLLM 的线索导向音视频计数
⏶
19
评估是你所需要的一切:通过评估设计策略性地夸大 LLM 推理能力
⏶
18
展开空间认知:评估视觉模拟上的多模态模型
⏶
17
搜索竞技场:分析搜索增强型大语言模型
⏶
16
SparseMM:MLLM 中视觉概念响应产生的头部稀疏性
⏶
16
StreamBP:LLM 长序列训练的内存高效精确反向传播
⏶
15
EOC-Bench:MLLM 能否在自我中心世界中识别、回忆和预测物体?
⏶
14
FlexPainter:灵活且多视图一致的纹理生成
⏶
13
MINT-CoT:在数学思维链推理中实现交错视觉令牌
⏶
11
使用固定文本编码器进行语言-图像对齐
⏶
11
重新审视前馈 3D 高斯泼溅的深度表示
⏶
9
通过词法偏置的自回归图像水印:一种抵抗再生成攻击的方法
⏶
7
SkyReels-Audio:视频扩散转换器中全向音频条件下的说话肖像
⏶
6
几何可编辑且外观保持的物体合成
⏶
6
FreeTimeGS:随时随地免费高斯用于动态场景重建
⏶
6
动力学:重新思考测试时缩放定律
⏶
5
用于鲁棒比较开放基础语言-视觉模型和数据集的缩放定律
⏶
4
MedAgentGym:大规模训练用于基于代码的医学推理的 LLM 代理
⏶
4
通过推理和强化学习实现 LLM 中的上下文完整性
⏶
4
RobustSplat:解耦致密化和动力学以实现无瞬变的 3DGS
⏶
4
图像具有可变长度的表示形式
⏶
3
校正点流:通用点云姿态估计
⏶
3
Micro-Act:通过可操作的自我推理缓解问答中的知识冲突
⏶
3
FEAT:用于医学视频生成的全维度高效注意力Transformer
⏶
2
BEVCALIB:通过几何引导的鸟瞰图表示进行激光雷达-相机校准
⏶
2
自动驾驶中用于 3D 占用预测的基于扩散的生成模型
⏶
2
SViMo:手物交互场景中视频与动作生成的同步扩散
⏶
2
水印损害语言模型中的对齐:分析与缓解
⏶
2
MARBLE:CLIP空间中的材料重组与混合
⏶
2
FlowDirector:免训练流向引导实现精准文本到视频编辑
⏶
2
感知解耦:通过奖励优化描述生成实现可扩展的多模态推理
⏶
1
重新思考全身 CT 图像解读:以异常为中心的方法
⏶
1
PATS:用于多视图运动技能评估的熟练度感知时间采样
⏶
1
自监督语音模型对荷兰语了解多少?分析特定语言预训练的优势