AI论文精选
每日论文
◀
05月15日
▶
⏶
85
BLIP3-o:完全开源统一多模态模型家族——架构、训练与数据集
⏶
61
深入了解 DeepSeek-V3:扩展挑战与面向AI架构的硬件思考
⏶
44
MathCoder-VL:连接视觉与代码以增强多模态数学推理
⏶
43
DeCLIP:解耦学习用于开放词表密集感知
⏶
31
LightLab:使用扩散模型控制图像中的光源
⏶
24
Marigold:基于扩散模型的图像生成器在图像分析中的经济高效改造
⏶
13
UniSkill:通过跨形态技能表征模仿人类视频
⏶
12
CAST:从单张 RGB 图像重建组件对齐的 3D 场景
⏶
9
WavReward:使用通用奖励评估器的语音对话模型
⏶
8
SweRank:基于代码排序的软件问题定位
⏶
8
Omni-R1:你真的需要音频来微调你的音频大语言模型吗?
⏶
4
VCRBench:探索大型视频语言模型的长篇因果推理能力
⏶
3
理解并减轻图像-文本预训练数据集中的毒性:LLaVA 的案例研究
⏶
2
DetReIDX:一个针对实际应用中基于无人机的人员识别的压力测试数据集
⏶
1
用于视觉问答的视觉可解释子任务推理
⏶
1
紧凑三维高斯泼溅的最速下降密度控制
⏶
1
Maya 的背后:构建多语言视觉语言模型