AI论文精选
每日论文
◀
06月06日
▶
⏶
38
ComfyUI-Copilot:用于自动化工作流开发的智能助手
⏶
36
SeedVR2:通过扩散对抗后训练实现一步视频恢复
⏶
32
RoboRefer:迈向机器人视觉语言模型中具有推理的空间指代
⏶
31
对角批处理解锁循环记忆 Transformer 在长上下文中的并行性
⏶
30
具有长期空间记忆的视频世界模型
⏶
27
Surfer-H 遇见 Holo1:由开放权重驱动的经济高效 Web 智能体
⏶
23
VideoREPA:通过与基础模型的关系对齐学习视频生成物理
⏶
22
Qwen3 Embedding:通过基础模型改进文本嵌入和重排序
⏶
19
AV-Reasoner:改进和基准测试 MLLM 的线索导向音视频计数
⏶
19
使用流先验对齐潜在空间
⏶
19
The Common Pile v0.1:一个包含 8TB 公有领域和开放许可文本的数据集
⏶
17
VideoMathQA:通过视频中的多模态理解基准测试数学推理
⏶
16
展开空间认知:评估视觉模拟上的多模态模型
⏶
15
StreamBP:LLM 长序列训练的内存高效精确反向传播
⏶
15
带 KV 缓存压缩的推理时超缩放
⏶
14
SparseMM:MLLM 中视觉概念响应产生的头部稀疏性
⏶
12
EOC-Bench:MLLM 能否在自我中心世界中识别、回忆和预测物体?
⏶
12
MINT-CoT:在数学思维链推理中实现交错视觉令牌
⏶
10
重新审视前馈 3D 高斯泼溅的深度表示
⏶
9
FlexPainter:灵活且多视图一致的纹理生成
⏶
8
使用固定文本编码器进行语言-图像对齐
⏶
8
通过词法偏置的自回归图像水印:一种抵抗再生成攻击的方法
⏶
7
搜索竞技场:分析搜索增强型大语言模型
⏶
6
评估是你所需要的一切:通过评估设计策略性地夸大 LLM 推理能力
⏶
5
FreeTimeGS:随时随地免费高斯用于动态场景重建
⏶
4
MedAgentGym:大规模训练用于基于代码的医学推理的 LLM 代理
⏶
4
几何可编辑且外观保持的物体合成
⏶
3
通过推理和强化学习实现 LLM 中的上下文完整性
⏶
3
校正点流:通用点云姿态估计
⏶
3
SkyReels-Audio:视频扩散转换器中全向音频条件下的说话肖像
⏶
3
Micro-Act:通过可操作的自我推理缓解问答中的知识冲突
⏶
3
RobustSplat:解耦致密化和动力学以实现无瞬变的 3DGS
⏶
3
FEAT:用于医学视频生成的全维度高效注意力Transformer
⏶
3
用于鲁棒比较开放基础语言-视觉模型和数据集的缩放定律
⏶
2
BEVCALIB:通过几何引导的鸟瞰图表示进行激光雷达-相机校准
⏶
2
自动驾驶中用于 3D 占用预测的基于扩散的生成模型
⏶
2
图像具有可变长度的表示形式
⏶
2
MARBLE:CLIP空间中的材料重组与混合
⏶
1
重新思考全身 CT 图像解读:以异常为中心的方法
⏶
1
PATS:用于多视图运动技能评估的熟练度感知时间采样
⏶
1
自监督语音模型对荷兰语了解多少?分析特定语言预训练的优势
⏶
1
SViMo:手物交互场景中视频与动作生成的同步扩散
⏶
1
FlowDirector:免训练流向引导实现精准文本到视频编辑
⏶
1
感知解耦:通过奖励优化描述生成实现可扩展的多模态推理
⏶
0
水印损害语言模型中的对齐:分析与缓解