每日论文

反思、重试、奖励：基于强化学习的LLM自我改进

反思、重试、奖励：基于强化学习的LLM自我改进

UniWorld：用于统一视觉理解与生成的高分辨率语义编码器

UniWorld：用于统一视觉理解与生成的高分辨率语义编码器

VS-Bench：评估多智能体环境中用于战略推理和决策的视觉-语言模型

VS-Bench：评估多智能体环境中用于战略推理和决策的视觉-语言模型

SynthRL：通过可验证数据合成扩展视觉推理

SynthRL：通过可验证数据合成扩展视觉推理

CSVQA: 一个用于评估VLMs STEM推理能力的中文多模态基准

CSVQA: 一个用于评估VLMs STEM推理能力的中文多模态基准

GUI-Actor: 针对GUI智能体的无坐标视觉定位

GUI-Actor: 针对GUI智能体的无坐标视觉定位

OmniSpatial: 迈向视觉语言模型的全面空间推理基准

FinMME：用于金融多模态推理评估的基准数据集

FinMME：用于金融多模态推理评估的基准数据集

OThink-R1: 内在快/慢思维模式切换，旨在缓解过度推理

OThink-R1: 内在快/慢思维模式切换，旨在缓解过度推理

视觉具身大脑：让多模态大语言模型在空间中看、思考和控制

视觉具身大脑：让多模态大语言模型在空间中看、思考和控制

DINGO: 针对扩散式大语言模型的约束推理

DINGO: 针对扩散式大语言模型的约束推理

Sparse-vDiT：释放稀疏注意力潜能，加速视频扩散Transformer

Sparse-vDiT：释放稀疏注意力潜能，加速视频扩散Transformer

Robot-R1：用于增强机器人具身推理的强化学习

Robot-R1：用于增强机器人具身推理的强化学习

MotionSight：提升多模态大型语言模型中的细粒度运动理解

MotionSight：提升多模态大型语言模型中的细粒度运动理解

通过强化学习协同演化大语言模型编码器和单元测试器

通过强化学习协同演化大语言模型编码器和单元测试器

AnimeShooter：一个用于参考引导视频生成的多镜头动画数据集

AnimeShooter：一个用于参考引导视频生成的多镜头动画数据集

负引导的主体保真度优化以实现零样本主体驱动生成

负引导的主体保真度优化以实现零样本主体驱动生成

LumosFlow: 运动引导的长视频生成

LumosFlow: 运动引导的长视频生成

原生分辨率图像合成

原生分辨率图像合成

RelationAdapter：结合扩散Transformer学习和迁移视觉关系

RelationAdapter：结合扩散Transformer学习和迁移视觉关系

FlowMo：基于方差的流引导实现视频生成中的连贯运动

DCM: 高效高质量视频生成的双专家一致性模型

DCM: 高效高质量视频生成的双专家一致性模型

数据表还不够：DataRubrics：用于自动化质量指标和问责制

数据表还不够：DataRubrics：用于自动化质量指标和问责制

PCoreSet：通过视觉-语言模型知识蒸馏实现高效主动学习

PCoreSet：通过视觉-语言模型知识蒸馏实现高效主动学习

Ctrl-Crash: 可控扩散生成逼真汽车碰撞

利用程序分析反馈训练语言模型生成高质量代码

利用程序分析反馈训练语言模型生成高质量代码

自我挑战的语言模型智能体

运动感知概念对齐，实现一致的视频编辑

运动感知概念对齐，实现一致的视频编辑

通过自适应并行解码加速扩散大语言模型

通过自适应并行解码加速扩散大语言模型

ORV: 4D 基于占用率的机器人视频生成

ORV: 4D 基于占用率的机器人视频生成

多模态 DeepResearcher：采用代理框架从零开始生成文本-图表交错报告

开源推理模型缺失的一环：用于缓解强化学习中短CoT大语言模型冷启动的数据集

开源推理模型缺失的一环：用于缓解强化学习中短CoT大语言模型冷启动的数据集

ReFoCUS：用于语境理解的强化引导帧优化

ReFoCUS：用于语境理解的强化引导帧优化

FuseLIP：通过离散令牌的早期融合实现多模态嵌入

FuseLIP：通过离散令牌的早期融合实现多模态嵌入

多少回溯才足够？探索SFT和RL在增强LLM推理能力中的相互作用

多少回溯才足够？探索SFT和RL在增强LLM推理能力中的相互作用

Hanfu-Bench：一项关于跨时间文化理解与转译的多模态基准

Hanfu-Bench：一项关于跨时间文化理解与转译的多模态基准

深度视频发现：用于长视频理解的使用工具的智能体搜索

深度视频发现：用于长视频理解的使用工具的智能体搜索

MERIT: 多语言语义检索与交错式多条件查询

MERIT: 多语言语义检索与交错式多条件查询

分享: 一种基于SLM的文本到SQL分层动作校正助手

分享: 一种基于SLM的文本到SQL分层动作校正助手

角度不会骗人：通过模型自身信号解锁高效强化学习

角度不会骗人：通过模型自身信号解锁高效强化学习

M^3FinMeeting：一个多语言、多行业、多任务的金融会议理解评估数据集

M^3FinMeeting：一个多语言、多行业、多任务的金融会议理解评估数据集

R^2ec：迈向具备推理能力的大型推荐模型

R^2ec：迈向具备推理能力的大型推荐模型

先知后言：LLM表示编码了关于思维链在完成前成功的信息

先知后言：LLM表示编码了关于思维链在完成前成功的信息

QARI-OCR: 通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别

QARI-OCR: 通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别

太长不看：过长内容，通过重新加权实现高效LLM推理压缩

太长不看：过长内容，通过重新加权实现高效LLM推理压缩

基于生成先验的可控人体关键帧插值

基于生成先验的可控人体关键帧插值

Control-R：迈向可控的测试时缩放

Control-R：迈向可控的测试时缩放

重温 LRP：位置归因是Transformer可解释性中缺失的要素

重温 LRP：位置归因是Transformer可解释性中缺失的要素

超越情境学习：通过任务固有的属性指导原则，对齐大型语言模型的长篇生成

超越情境学习：通过任务固有的属性指导原则，对齐大型语言模型的长篇生成

ByteMorph：非刚性运动的指令引导图像编辑基准测试

ByteMorph：非刚性运动的指令引导图像编辑基准测试