每日论文

ScienceBoard：评测多模态自主智能体在真实科学工作流程中

ScienceBoard：评测多模态自主智能体在真实科学工作流程中

Paper2Poster：迈向基于科学论文的多模态海报自动化

Paper2Poster：迈向基于科学论文的多模态海报自动化

MME-Reasoning：一个面向 MLLMs 中逻辑推理的综合基准

MME-Reasoning：一个面向 MLLMs 中逻辑推理的综合基准

SynLogic：大规模合成可验证推理数据，迈向逻辑推理及其他领域

SynLogic：大规模合成可验证推理数据，迈向逻辑推理及其他领域

OmniConsistency：从配对风格化数据中学习与风格无关的一致性

OmniConsistency：从配对风格化数据中学习与风格无关的一致性

探索大型语言模型在一步文本生成中的潜在能力

探索大型语言模型在一步文本生成中的潜在能力

不要过度思考。偏好更短的思维链以改进 LLM 推理

不要过度思考。偏好更短的思维链以改进 LLM 推理

OpenS2V-Nexus：面向主体到视频生成的详细基准和百万规模数据集

OpenS2V-Nexus：面向主体到视频生成的详细基准和百万规模数据集

MMMR：大规模多模态推理任务基准测试

MMMR：大规模多模态推理任务基准测试

直觉指引：基于增强内在信心的高效测试时扩展

直觉指引：基于增强内在信心的高效测试时扩展

代码图模型 (CGM)：一种集成图的大语言模型，用于代码仓库级软件工程任务

代码图模型 (CGM)：一种集成图的大语言模型，用于代码仓库级软件工程任务

VerIPO：通过验证器引导的迭代策略优化在 Video-LLMs 中培养长程推理能力

VerIPO：通过验证器引导的迭代策略优化在 Video-LLMs 中培养长程推理能力

Sparse VideoGen2：通过语义感知的置换和稀疏注意力加速视频生成

Sparse VideoGen2：通过语义感知的置换和稀疏注意力加速视频生成

MME-VideoOCR：评估多模态 LLMs 在视频场景下的 OCR 能力

MME-VideoOCR：评估多模态 LLMs 在视频场景下的 OCR 能力

UI-Genie：一种自改进方法，用于迭代提升基于 MLLM 的移动 GUI 智能体

UI-Genie：一种自改进方法，用于迭代提升基于 MLLM 的移动 GUI 智能体

GraLoRA：用于参数高效微调的细粒度低秩适应

GraLoRA：用于参数高效微调的细粒度低秩适应

SweEval: LLMs真的会说脏话吗？用于测试企业用途限制的安全基准

SweEval: LLMs真的会说脏话吗？用于测试企业用途限制的安全基准

Video-Holmes：MLLM 能像福尔摩斯一样进行复杂的视频推理吗？

Video-Holmes：MLLM 能像福尔摩斯一样进行复杂的视频推理吗？

rStar-Coder：通过大规模验证数据集扩展竞争性代码推理能力

rStar-Coder：通过大规模验证数据集扩展竞争性代码推理能力

无需验证器强化通用推理

MetaMind：使用元认知多智能体系统建模人类社会思维

MetaMind：使用元认知多智能体系统建模人类社会思维

HoliTom: 用于快速视频大型语言模型的整体式 token 合并

HoliTom: 用于快速视频大型语言模型的整体式 token 合并

超越蒸馏：借助极简规则强化学习推动医学大模型推理的极限

超越蒸馏：借助极简规则强化学习推动医学大模型推理的极限

MotionPro：用于图像到视频生成的精确运动控制器

对齐如何增强大型语言模型的跨语言能力？一个语言神经元的视角

对齐如何增强大型语言模型的跨语言能力？一个语言神经元的视角

ImgEdit：一个统一的图像编辑数据集和基准

ImgEdit：一个统一的图像编辑数据集和基准

Frame In-N-Out：无限制的可控图像到视频生成

Frame In-N-Out：无限制的可控图像到视频生成

NOVA: 用于脑部MRI异常定位和临床推理的基准

NOVA: 用于脑部MRI异常定位和临床推理的基准

Active-O3：通过 GRPO 赋予多模态大语言模型主动感知能力

Active-O3：通过 GRPO 赋予多模态大语言模型主动感知能力

超越 Prompt Engineering：通过引导目标原子实现 LLMs 中鲁棒的行为控制

超越 Prompt Engineering：通过引导目标原子实现 LLMs 中鲁棒的行为控制

DetailFlow：通过预测下一细节进行一维从粗到细的自回归图像生成

DetailFlow：通过预测下一细节进行一维从粗到细的自回归图像生成

FinTagging：用于提取和结构化金融信息的LLM（大型语言模型）就绪基准

FinTagging：用于提取和结构化金融信息的LLM（大型语言模型）就绪基准

ViewSpatial-Bench：评估视觉-语言模型中的多视角空间定位能力

ViewSpatial-Bench：评估视觉-语言模型中的多视角空间定位能力

用于矢量图形生成的渲染感知强化学习

用于矢量图形生成的渲染感知强化学习

VisualToolAgent (VisTA)：一个用于视觉工具选择的强化学习框架

VisualToolAgent (VisTA)：一个用于视觉工具选择的强化学习框架

Thinker：学习快思慢想

SeePhys：“看”有助于“思考”吗？——基于视觉的物理推理基准测试

SeePhys：“看”有助于“思考”吗？——基于视觉的物理推理基准测试

通过特征最优对齐攻击闭源 MLLMs 的对抗性攻击

通过特征最优对齐攻击闭源 MLLMs 的对抗性攻击

MMMG: 一个用于多任务多模态生成的全面可靠评估套件

MMMG: 一个用于多任务多模态生成的全面可靠评估套件

超越马尔可夫性：通过贝叶斯自适应强化学习实现大型语言模型的反思性探索推理

超越马尔可夫性：通过贝叶斯自适应强化学习实现大型语言模型的反思性探索推理

先学走再学跑！通过强化学习实现简洁的大型语言模型推理

先学走再学跑！通过强化学习实现简洁的大型语言模型推理

Alita：实现可扩展代理推理的通用代理，具有最小预定义和最大自我进化

Alita：实现可扩展代理推理的通用代理，具有最小预定义和最大自我进化

VideoGameBench: 视觉-语言模型能否通关热门电子游戏？

MMPerspective：MLLMs 理解透视吗？一个用于透视感知、推理和鲁棒性的全面基准

MMPerspective：MLLMs 理解透视吗？一个用于透视感知、推理和鲁棒性的全面基准

用于复杂指令遵循的反向偏好优化

用于复杂指令遵循的反向偏好优化

具有双重并行性的分钟级视频

Sci-Fi：用于帧插值的对称约束

Sci-Fi：用于帧插值的对称约束

压缩后的大型语言模型能否真正具备自主行动能力？对大型语言模型压缩中自主行动能力的一次实证评估

压缩后的大型语言模型能否真正具备自主行动能力？对大型语言模型压缩中自主行动能力的一次实证评估

在思考过程中搜索和细化：大型语言模型的自主检索增强推理

在思考过程中搜索和细化：大型语言模型的自主检索增强推理

R1-Searcher++：通过强化学习激励大型语言模型（LLMs）的动态知识获取

R1-Searcher++：通过强化学习激励大型语言模型（LLMs）的动态知识获取

MLLMs 深受模态偏差影响

BiomedSQL: 基于生物医学知识库进行科学推理的文本到SQL

BiomedSQL: 基于生物医学知识库进行科学推理的文本到SQL

通过多智能体协作，扩展超出大型语言模型上下文窗口的外部知识输入

通过多智能体协作，扩展超出大型语言模型上下文窗口的外部知识输入

SoloSpeech：通过级联生成管线增强目标语音提取的清晰度和质量

SoloSpeech：通过级联生成管线增强目标语音提取的清晰度和质量

模态策展：构建用于高级多模态信息检索的通用嵌入

模态策展：构建用于高级多模态信息检索的通用嵌入

VLM-3R：基于指令对齐三维重建增强的视觉-语言模型

VLM-3R：基于指令对齐三维重建增强的视觉-语言模型

DFIR-Metric: 用于评估大型语言模型在数字取证和事件响应中表现的基准数据集

DFIR-Metric: 用于评估大型语言模型在数字取证和事件响应中表现的基准数据集

ComfyMind: 基于树形规划和反应式反馈的通用生成方法

ComfyMind: 基于树形规划和反应式反馈的通用生成方法

用于 LLM 红队测试的基于能力的扩展定律

用于 LLM 红队测试的基于能力的扩展定律

逆向虚拟试穿：从着装个体生成多类别产品风格图像

逆向虚拟试穿：从着装个体生成多类别产品风格图像

空间知识图谱引导的多模态合成

绝对坐标使运动生成变得容易

R1-ShareVL: 通过 Share-GRPO 激励多模态大型语言模型的推理能力

R1-ShareVL: 通过 Share-GRPO 激励多模态大型语言模型的推理能力

AdInject：现实世界中通过广告投放对Web代理进行的黑盒攻击

AdInject：现实世界中通过广告投放对Web代理进行的黑盒攻击

SATORI-R1：通过空间基础和可验证奖励激励多模态推理

SATORI-R1：通过空间基础和可验证奖励激励多模态推理

CoreMatching：一种用于全面加速视觉-语言模型的、带有 Token 和神经元剪枝的协同自适应稀疏推理框架

CoreMatching：一种用于全面加速视觉-语言模型的、带有 Token 和神经元剪枝的协同自适应稀疏推理框架

PreMoe：通过专家剪枝和检索减轻受限内存上的 MoEs

PreMoe：通过专家剪枝和检索减轻受限内存上的 MoEs

通过 SMILES 解析改进 LLMs 的化学理解能力

通过 SMILES 解析改进 LLMs 的化学理解能力

热带注意力：用于组合算法的神经算法推理

热带注意力：用于组合算法的神经算法推理

RAG 系统是否存在位置偏差？

RAG 系统是否存在位置偏差？

解释自动化事实核查中的不确定性来源

解释自动化事实核查中的不确定性来源

知识增强的Text-to-SQL的知识库构建

知识增强的Text-to-SQL的知识库构建

Ankh3：结合序列去噪与补全的多任务预训练，增强蛋白质表示

Ankh3：结合序列去噪与补全的多任务预训练，增强蛋白质表示

超越简单拼接：公平评估用于多链蛋白质-蛋白质相互作用预测的PLM架构

超越简单拼接：公平评估用于多链蛋白质-蛋白质相互作用预测的PLM架构

一个针对神经退行性痴呆的可解释诊断框架，通过强化优化的LLM推理实现

一个针对神经退行性痴呆的可解释诊断框架，通过强化优化的LLM推理实现

带有自蒸馏寄存器的视觉 Transformer

带有自蒸馏寄存器的视觉 Transformer