每日论文

BLIP3-o：完全开源统一多模态模型家族——架构、训练与数据集

BLIP3-o：完全开源统一多模态模型家族——架构、训练与数据集

深入了解 DeepSeek-V3：扩展挑战与面向AI架构的硬件思考

深入了解 DeepSeek-V3：扩展挑战与面向AI架构的硬件思考

MathCoder-VL：连接视觉与代码以增强多模态数学推理

MathCoder-VL：连接视觉与代码以增强多模态数学推理

DeCLIP：解耦学习用于开放词表密集感知

LightLab：使用扩散模型控制图像中的光源

LightLab：使用扩散模型控制图像中的光源

Marigold：基于扩散模型的图像生成器在图像分析中的经济高效改造

UniSkill：通过跨形态技能表征模仿人类视频

UniSkill：通过跨形态技能表征模仿人类视频

CAST：从单张 RGB 图像重建组件对齐的 3D 场景

CAST：从单张 RGB 图像重建组件对齐的 3D 场景

WavReward：使用通用奖励评估器的语音对话模型

WavReward：使用通用奖励评估器的语音对话模型

SweRank：基于代码排序的软件问题定位

SweRank：基于代码排序的软件问题定位

Omni-R1：你真的需要音频来微调你的音频大语言模型吗？

Omni-R1：你真的需要音频来微调你的音频大语言模型吗？

VCRBench：探索大型视频语言模型的长篇因果推理能力

VCRBench：探索大型视频语言模型的长篇因果推理能力

理解并减轻图像-文本预训练数据集中的毒性：LLaVA 的案例研究

理解并减轻图像-文本预训练数据集中的毒性：LLaVA 的案例研究

DetReIDX：一个针对实际应用中基于无人机的人员识别的压力测试数据集

DetReIDX：一个针对实际应用中基于无人机的人员识别的压力测试数据集

用于视觉问答的视觉可解释子任务推理

用于视觉问答的视觉可解释子任务推理

紧凑三维高斯泼溅的最速下降密度控制

紧凑三维高斯泼溅的最速下降密度控制

Maya 的背后：构建多语言视觉语言模型

Maya 的背后：构建多语言视觉语言模型