每日论文

InternVL3.5：在通用性、推理和效率方面推动开源多模态模型的发展

InternVL3.5：在通用性、推理和效率方面推动开源多模态模型的发展

Visual-CoG：面向文本到图像生成的阶段感知链式引导强化学习

Visual-CoG：面向文本到图像生成的阶段感知链式引导强化学习

MV-RAG：检索增强多视图扩散

MV-RAG：检索增强多视图扩散

爱马仕 4 技术报告

理解工具集成推理

T2I-ReasonBench：推理赋能文本到图像生成的基准测试

T2I-ReasonBench：推理赋能文本到图像生成的基准测试

超越记忆：通过循环、记忆和测试时间计算扩展推理深度

超越记忆：通过循环、记忆和测试时间计算扩展推理深度

MMTok：多模态覆盖最大化，实现视觉语言模型的推理效率

MMTok：多模态覆盖最大化，实现视觉语言模型的推理效率

打破探索瓶颈：基于评分表的强化学习促进通用大语言模型推理

打破探索瓶颈：基于评分表的强化学习促进通用大语言模型推理

PosterGen：通过多代理 LLM 进行审美感知论文到海报生成

PosterGen：通过多代理 LLM 进行审美感知论文到海报生成

UQ：在未解决问题上评估语言模型

UQ：在未解决问题上评估语言模型

MEENA（波斯多模态多语言评估）：面向N级评估的多模态多语言教育考试

MEENA（波斯多模态多语言评估）：面向N级评估的多模态多语言教育考试

TaDiCodec：文本感知的扩散语音分词器用于语音语言建模

TaDiCodec：文本感知的扩散语音分词器用于语音语言建模

ST-Raptor：大语言模型赋能的半结构化表格问答

ST-Raptor：大语言模型赋能的半结构化表格问答

注意力机制中归一化的局限性

无效且不可靠？探讨使用大语言模型作为评判者

无效且不可靠？探讨使用大语言模型作为评判者

MeshSplat: 通过高斯飞溅实现可泛化的稀疏视图表面重建

先解释后回答：一种关于组合视觉推理的调查

先解释后回答：一种关于组合视觉推理的调查

SpotEdit：视觉引导的图像编辑方法评估

SpotEdit：视觉引导的图像编辑方法评估

German4All - 一个用于德语可读性控制释义的数据集和模型

German4All - 一个用于德语可读性控制释义的数据集和模型

如果我们可以预设：通过无预设问题的分解来有力地验证主张

如果我们可以预设：通过无预设问题的分解来有力地验证主张

心脏超声去雾的语义扩散后验采样

心脏超声去雾的语义扩散后验采样

REGEN：通过双阶段生成网络框架在游戏中实现实时照片级逼真度增强

REGEN：通过双阶段生成网络框架在游戏中实现实时照片级逼真度增强