每日论文

用于推理语言模型的强化学习熵机制

用于推理语言模型的强化学习熵机制

SWE-rebench：软件工程智能体任务收集与去污评估的自动化管线

SWE-rebench：软件工程智能体任务收集与去污评估的自动化管线

R2R：利用大小模型令牌路由高效探索分支推理路径

Skywork Open Reasoner 1 技术报告

Skywork Open Reasoner 1 技术报告

Sherlock: 视觉语言模型中的自校正推理

Sherlock: 视觉语言模型中的自校正推理

通过 GRPO 对多模态 LLM 推理进行无监督后训练

通过 GRPO 对多模态 LLM 推理进行无监督后训练

缩放链：通过尺度自回归与偏好对齐实现的极致超分辨率

缩放链：通过尺度自回归与偏好对齐实现的极致超分辨率

SageAttention2++: SageAttention2 的更高效实现

SageAttention2++: SageAttention2 的更高效实现

通过带有冷启动的强化学习推进多模态推理

通过带有冷启动的强化学习推进多模态推理

RenderFormer: 基于 Transformer 的带全局光照的三角形网格神经渲染

RenderFormer: 基于 Transformer 的带全局光照的三角形网格神经渲染

通过下一事件预测促进视频推理

DeepResearchGym：一个免费、透明、可复现的深度研究评估沙盒

DeepResearchGym：一个免费、透明、可复现的深度研究评估沙盒

在企业系统中用于领域特定检索的难例挖掘

在企业系统中用于领域特定检索的难例挖掘

FS-DAG: 用于视觉丰富文档理解的少样本域适应图网络

FS-DAG: 用于视觉丰富文档理解的少样本域适应图网络

通用推理器：一个用于冻结大语言模型的单一、可组合的即插即用推理器

通用推理器：一个用于冻结大语言模型的单一、可组合的即插即用推理器

WebDancer: 迈向自主信息寻求代理

跨语言质量评估：基于语言模型的多语言预训练数据过滤方法

跨语言质量评估：基于语言模型的多语言预训练数据过滤方法

如何利用Stable Diffusion实现文本到360度全景图生成？

如何利用Stable Diffusion实现文本到360度全景图生成？

重新审视多智能体辩论作为测试时扩展：一项关于条件有效性的系统性研究

重新审视多智能体辩论作为测试时扩展：一项关于条件有效性的系统性研究

迈向动态心智理论：评估 LLM 对人类状态时间演变的适应性

迈向动态心智理论：评估 LLM 对人类状态时间演变的适应性

SVRPBench：一个用于随机车辆路径问题的真实基准测试

SVRPBench：一个用于随机车辆路径问题的真实基准测试

CHIMERA：科学文献中的概念重组知识库

CHIMERA：科学文献中的概念重组知识库

令牌减少应该超越生成模型中的效率 -- 从视觉、语言到多模态

令牌减少应该超越生成模型中的效率 -- 从视觉、语言到多模态

大型语言模型中的个性化安全：一个基准与一种基于规划的智能体方法

大型语言模型中的个性化安全：一个基准与一种基于规划的智能体方法

利用生成的图像进行思考

通过轮级信用分配强化LLM智能体的多轮推理能力

通过轮级信用分配强化LLM智能体的多轮推理能力

LIMOPro: 用于高效有效测试时扩展的推理细化

LIMOPro: 用于高效有效测试时扩展的推理细化

VRAG-RL：赋能基于视觉感知的 RAG，通过强化学习迭代推理增强视觉丰富信息理解

VRAG-RL：赋能基于视觉感知的 RAG，通过强化学习迭代推理增强视觉丰富信息理解

EPiC：通过精准的锚定视频引导实现高效的视频摄像机控制学习

EPiC：通过精准的锚定视频引导实现高效的视频摄像机控制学习

Text2Grad: 从自然语言反馈中进行强化学习

Text2Grad: 从自然语言反馈中进行强化学习

RICO：通过视觉重建提高图像重配字幕的准确性和完整性

RICO：通过视觉重建提高图像重配字幕的准确性和完整性

PrismLayers: 用于高质量多层透明图像生成模型的开放数据

PrismLayers: 用于高质量多层透明图像生成模型的开放数据

基于规则和基于模型的验证器在数学推理中的陷阱——一项案例研究

基于规则和基于模型的验证器在数学推理中的陷阱——一项案例研究

MangaVQA 和 MangaLMM：面向多模态漫画理解的基准与专用模型

MangaVQA 和 MangaLMM：面向多模态漫画理解的基准与专用模型

Prot2Token：基于下一词元预测的统一蛋白质建模框架

Prot2Token：基于下一词元预测的统一蛋白质建模框架

One-Way Ticket：用于蒸馏文本到图像扩散模型的时间独立统一编码器

One-Way Ticket：用于蒸馏文本到图像扩散模型的时间独立统一编码器

就像人类需要疫苗，模型也需要：模型免疫以对抗谬误

就像人类需要疫苗，模型也需要：模型免疫以对抗谬误

通过 LLM 代理的零样本视觉编码器嫁接

通过 LLM 代理的零样本视觉编码器嫁接

GRE Suite: 通过微调的视觉-语言模型和增强的推理链进行地理定位推理

GRE Suite: 通过微调的视觉-语言模型和增强的推理链进行地理定位推理

Safe-Sora: 通过图形水印实现安全的文本到视频生成

Safe-Sora: 通过图形水印实现安全的文本到视频生成

Styl3R：适用于任意场景和风格的即时三维风格化重建

Styl3R：适用于任意场景和风格的即时三维风格化重建

基于影响蒸馏的大规模数据高效选择

基于影响蒸馏的大规模数据高效选择

基于 Hugging Face 知识图谱的推荐、分类和追踪基准测试

基于 Hugging Face 知识图谱的推荐、分类和追踪基准测试

揭示指令特异性神经元与专家：LLM指令遵循能力的分析框架

揭示指令特异性神经元与专家：LLM指令遵循能力的分析框架

元学习人脑高级视觉皮层的语境Transformer模型

元学习人脑高级视觉皮层的语境Transformer模型

AITEE -- 电气工程的代理导师

AITEE -- 电气工程的代理导师

HoPE: 视觉-语言模型中的长度泛化混合位置编码

HoPE: 视觉-语言模型中的长度泛化混合位置编码

FastTD3：简单、快速、强大的强化学习，用于人形机器人控制

FastTD3：简单、快速、强大的强化学习，用于人形机器人控制

PixelThink：迈向高效的像素链推理

PixelThink：迈向高效的像素链推理

刻画偏差：对大语言模型在简体中文与繁体中文上的基准测试

刻画偏差：对大语言模型在简体中文与繁体中文上的基准测试

MUSEG：通过时间戳感知多片段定位增强视频时间理解

MUSEG：通过时间戳感知多片段定位增强视频时间理解

朝上吗？通过细粒度多轴感知任务解耦多模态大模型的方向理解

朝上吗？通过细粒度多轴感知任务解耦多模态大模型的方向理解

First Finish Search：大型语言模型中的高效测试时扩展

First Finish Search：大型语言模型中的高效测试时扩展

面向3D医学影像的可扩展语言-图像预训练

面向3D医学影像的可扩展语言-图像预训练

大型语言模型中的精确参数内概念擦除

大型语言模型中的精确参数内概念擦除

大语言模型能否从真实世界的文本中推断出因果关系？

大语言模型能否从真实世界的文本中推断出因果关系？

IQBench：视觉-语言模型有多“聪明”？一项基于人类智商测试的研究

IQBench：视觉-语言模型有多“聪明”？一项基于人类智商测试的研究