每日论文

DeepAnalyze：用于自主数据科学的智能体大型语言模型

DeepAnalyze：用于自主数据科学的智能体大型语言模型

迈向通用检索增强生成的混合模态检索

迈向通用检索增强生成的混合模态检索

PICABench：我们在物理现实图像编辑方面还有多远？

PICABench：我们在物理现实图像编辑方面还有多远？

Glyph: 通过视觉文本压缩扩展上下文窗口

Glyph: 通过视觉文本压缩扩展上下文窗口

Uniworld-V2：通过扩散负感知微调和MLLM隐式反馈强化图像编辑

Uniworld-V2：通过扩散负感知微调和MLLM隐式反馈强化图像编辑

用于复制人工智能研究的可执行知识图谱

用于复制人工智能研究的可执行知识图谱

ConsistEdit：高度一致且精确的无需训练的视觉编辑

ConsistEdit：高度一致且精确的无需训练的视觉编辑

标注高效的通用诚实对齐

超越流水线：关于模型原生智能体人工智能范式转变的调查

超越流水线：关于模型原生智能体人工智能范式转变的调查

FineVision：开放数据就足够了

FineVision：开放数据就足够了

视觉自回归模型在推理时间扩展方面优于扩散模型

视觉自回归模型在推理时间扩展方面优于扩散模型

对大型推理模型的干扰注入攻击：表征与防御

对大型推理模型的干扰注入攻击：表征与防御

深度自演化推理

RL 使 MLLM 比 SFT 看得更清楚

RL 使 MLLM 比 SFT 看得更清楚

企业深度研究：面向企业分析的可控多智能体深度研究

企业深度研究：面向企业分析的可控多智能体深度研究

基于知识的多模态处理、检索和过滤视觉问答

基于知识的多模态处理、检索和过滤视觉问答

UltraCUA：一种具有混合动作的计算机使用代理基础模型

UltraCUA：一种具有混合动作的计算机使用代理基础模型

卫星图像分类的多任务注意力平衡：一种无需预训练即可实现 EuroSAT 97.23% 准确率的系统方法

卫星图像分类的多任务注意力平衡：一种无需预训练即可实现 EuroSAT 97.23% 准确率的系统方法

Embody 3D：大规模多模态运动与行为数据集

Embody 3D：大规模多模态运动与行为数据集

AsyncVoice Agent：LLM规划与推理的实时解释

AsyncVoice Agent：LLM规划与推理的实时解释