每日论文

QeRL：超越效率——面向大型语言模型的量化增强强化学习

具有表示自编码器的扩散 Transformer

具有表示自编码器的扩散 Transformer

潜在细化解码：通过细化信念状态增强基于扩散的语言模型

潜在细化解码：通过细化信念状态增强基于扩散的语言模型

OmniVideoBench：迈向全景多模态大模型（MLLMs）的视听理解评估

OmniVideoBench：迈向全景多模态大模型（MLLMs）的视听理解评估

RLFR：通过流环境将强化学习扩展到大语言模型（LLMs）

RLFR：通过流环境将强化学习扩展到大语言模型（LLMs）

多模态强化学习中的 Token 感知聚焦

多模态强化学习中的 Token 感知聚焦

InternSVG：通过多模态大语言模型实现统一 SVG 任务

InternSVG：通过多模态大语言模型实现统一 SVG 任务

揭秘强化学习在智能体推理中的应用

揭秘强化学习在智能体推理中的应用

DiT360：通过混合训练实现高保真全景图像生成

AVoCaDO：一个由时间编排驱动的视听视频字幕生成器

AVoCaDO：一个由时间编排驱动的视听视频字幕生成器

BrowserAgent：利用人类启发式网页浏览行为构建网页代理

BrowserAgent：利用人类启发式网页浏览行为构建网页代理

不要仅仅微调代理，要调整环境

DocReward：用于结构化和风格化的文档奖励模型

DocReward：用于结构化和风格化的文档奖励模型

通过合成数据构建通用代理系统（Agentic Systems）的基础安全护栏

通过合成数据构建通用代理系统（Agentic Systems）的基础安全护栏

ACADREASON：利用学术研究问题探索推理模型的极限

ACADREASON：利用学术研究问题探索推理模型的极限

GAR：用于形式定理证明的生成对抗强化学习

GAR：用于形式定理证明的生成对抗强化学习

使数学推理适应性化

FinAuditing：一个用于评估大型语言模型的金融分类学结构化多文档基准

FinAuditing：一个用于评估大型语言模型的金融分类学结构化多文档基准

Vlaser：具有协同具身推理的视觉-语言-动作模型

Vlaser：具有协同具身推理的视觉-语言-动作模型

GIR-Bench：用于生成具有推理能力的图像的多功能基准

GIR-Bench：用于生成具有推理能力的图像的多功能基准

AdaViewPlanner：适应视频扩散模型用于 4D 场景中的视点规划

AdaViewPlanner：适应视频扩散模型用于 4D 场景中的视点规划

SPG：面向掩码扩散语言模型的夹层策略梯度

SPG：面向掩码扩散语言模型的夹层策略梯度

关于视觉令牌的认知不确定性对大型视觉-语言模型中对象幻觉的影响

关于视觉令牌的认知不确定性对大型视觉-语言模型中对象幻觉的影响

CodePlot-CoT：通过代码驱动图像进行思考的数学视觉推理

CodePlot-CoT：通过代码驱动图像进行思考的数学视觉推理

SwarmSys: 去中心化的类群启发式智能体，用于可扩展和自适应的推理

SwarmSys: 去中心化的类群启发式智能体，用于可扩展和自适应的推理

FastHMR：通过令牌和层合并以及扩散解码加速人体网格恢复

使用高斯散点图生成高保真模拟数据，用于现实世界中的零样本机器人操作学习

Stable Video Infinity：带有错误循环的无限长视频生成

ReLook：一种具有多模态大语言模型（LLMs）评论员的视觉基础强化学习，用于代理式网页编码

ReLook：一种具有多模态大语言模型（LLMs）评论员的视觉基础强化学习，用于代理式网页编码

测试时期的自改进大型语言模型代理

测试时期的自改进大型语言模型代理

技能定向自适应训练

HUME：衡量文本嵌入任务中人类-模型性能差距

HUME：衡量文本嵌入任务中人类-模型性能差距

攻击者后手：更强的自适应攻击绕过大语言模型越狱和提示注入防御

攻击者后手：更强的自适应攻击绕过大语言模型越狱和提示注入防御

PEAR：用于高效推理的相位熵感知奖励

PEAR：用于高效推理的相位熵感知奖励

个性化陷阱：用户记忆如何改变大型语言模型中的情感推理

个性化陷阱：用户记忆如何改变大型语言模型中的情感推理

LikePhys：通过似然偏好评估视频扩散模型中的直观物理理解能力

LikePhys：通过似然偏好评估视频扩散模型中的直观物理理解能力

InfiniHuman：具有精确控制的无限3D人像创建

InfiniHuman：具有精确控制的无限3D人像创建

VER：通过基础蒸馏和动态路由实现机器人学习的视觉专家 Transformer

VER：通过基础蒸馏和动态路由实现机器人学习的视觉专家 Transformer

从数据到奖励：最大似然估计的双层优化视角

从数据到奖励：最大似然估计的双层优化视角

RePro：训练语言模型以忠实地回收网络数据进行预训练

RePro：训练语言模型以忠实地回收网络数据进行预训练

World-To-Image: 通过智能体驱动的世界知识来约束文本到图像的生成

World-To-Image: 通过智能体驱动的世界知识来约束文本到图像的生成

面向对话代理的多模态策略内化

oMeBench：迈向有机机制阐释与推理中大型语言模型的鲁棒性基准测试

oMeBench：迈向有机机制阐释与推理中大型语言模型的鲁棒性基准测试

图扩散 Transformer 是上下文分子设计器

图扩散 Transformer 是上下文分子设计器

LLaMAX2：您的翻译增强模型在推理方面表现也很好

LLaMAX2：您的翻译增强模型在推理方面表现也很好

AndesVL 技术报告：一款高效的移动端多模态大语言模型

AndesVL 技术报告：一款高效的移动端多模态大语言模型

大语言模型与诱导式小型代理：可扩展的知识挖掘代理

大语言模型与诱导式小型代理：可扩展的知识挖掘代理

VLM 引导的自适应负面提示用于创意生成

VLM 引导的自适应负面提示用于创意生成

IVEBench：用于指令引导视频编辑评估的现代基准套件

IVEBench：用于指令引导视频编辑评估的现代基准套件

LLM 生成的 JavaScript 的隐藏 DNA：结构模式可实现高精度作者归属

LLM 生成的 JavaScript 的隐藏 DNA：结构模式可实现高精度作者归属

CoBia：构造的对话可以触发大型语言模型中否则隐藏的社会偏见

CoBia：构造的对话可以触发大型语言模型中否则隐藏的社会偏见

通过 LiDAR 的视角：面向地面点云分割的特征丰富且感知不确定性的标注流程

通过 LiDAR 的视角：面向地面点云分割的特征丰富且感知不确定性的标注流程

ViSurf: 大型视觉语言模型的视觉监督和强化微调

ViSurf: 大型视觉语言模型的视觉监督和强化微调

Pathology-CoT：从专家全切片图像诊断行为中学习视觉思维链代理

Pathology-CoT：从专家全切片图像诊断行为中学习视觉思维链代理

大型推理模型可以被中断吗？

语言模型短期和长期回答之间事实（错）对齐的奇特案例

语言模型短期和长期回答之间事实（错）对齐的奇特案例

MultiCOIN：多模态可控视频插帧

MultiCOIN：多模态可控视频插帧