每日论文

Web-Shepherd：推进 PRMs 以增强 Web Agents

Web-Shepherd：推进 PRMs 以增强 Web Agents

MMaDA: 多模态大型扩散语言模型

MMaDA: 多模态大型扩散语言模型

量化感知训练的缩放定律

扩散模型 vs 自回归语言模型：文本嵌入视角

扩散模型 vs 自回归语言模型：文本嵌入视角

UniVG-R1: 结合强化学习的推理引导通用视觉定位

UniVG-R1: 结合强化学习的推理引导通用视觉定位

用于计算机操作的高效 Agent 训练

用于计算机操作的高效 Agent 训练

这次不同：时间序列基础模型的可观测性视角

这次不同：时间序列基础模型的可观测性视角

利用基于长度的自适应奖励塑形学习高效推理

利用基于长度的自适应奖励塑形学习高效推理

Vid2World: 将视频扩散模型构建为交互式世界模型

Vid2World: 将视频扩散模型构建为交互式世界模型

从单张图像构建 3D 小镇

何时继续思考：用于高效推理的自适应思维模式切换

何时继续思考：用于高效推理的自适应思维模式切换

lmgame-Bench：LLMs 玩游戏水平如何？

lmgame-Bench：LLMs 玩游戏水平如何？

学习通过思维混合进行逻辑推理

VerifyBench：面向大型语言模型的基于参考的奖励系统的基准测试

VerifyBench：面向大型语言模型的基于参考的奖励系统的基准测试

dKV-Cache：扩散语言模型的缓存

dKV-Cache：扩散语言模型的缓存

对先验的深思：大型语言模型在知识图谱上的可信推理

对先验的深思：大型语言模型在知识图谱上的可信推理

软思维：在连续概念空间中释放 LLM 的推理潜力

软思维：在连续概念空间中释放 LLM 的推理潜力

IA-T2I：互联网增强的文本到图像生成

IA-T2I：互联网增强的文本到图像生成

RLVR-World: 利用强化学习训练世界模型

RLVR-World: 利用强化学习训练世界模型

在开源 LLM 上微调时要小心：你的微调数据可能被秘密窃取！

在开源 LLM 上微调时要小心：你的微调数据可能被秘密窃取！

如何增强大型推理模型的安全性：一项实证研究

如何增强大型推理模型的安全性：一项实证研究

DiCo：重振卷积网络，实现可扩展和高效的扩散建模

DiCo：重振卷积网络，实现可扩展和高效的扩散建模

BARREL：用于事实性和可靠 LRMs 的边界感知推理

BARREL：用于事实性和可靠 LRMs 的边界感知推理

文本生成：超越离散词元采样

文本生成：超越离散词元采样

ConvSearch-R1：通过强化学习结合推理，增强对话式搜索的查询重述

ConvSearch-R1：通过强化学习结合推理，增强对话式搜索的查询重述

AutoMat：通过 Agent 工具使用实现基于显微镜数据的自动化晶体结构重建

AutoMat：通过 Agent 工具使用实现基于显微镜数据的自动化晶体结构重建

无需手动测试集评估偏差：大型语言模型（LLMs）的概念表示视角

无需手动测试集评估偏差：大型语言模型（LLMs）的概念表示视角

熵最小化在LLM推理中的不可思议的有效性

熵最小化在LLM推理中的不可思议的有效性

VARD：利用基于价值的强化学习对扩散模型进行高效且密集微调

VARD：利用基于价值的强化学习对扩散模型进行高效且密集微调

用于强化微调的先验提示工程

音频越狱：一个用于越狱大型音频-语言模型的开放综合基准

音频越狱：一个用于越狱大型音频-语言模型的开放综合基准

BLEUBERI: BLEU 是一个令人惊讶地有效的指令遵循奖励

BLEUBERI: BLEU 是一个令人惊讶地有效的指令遵循奖励

PiFlow：通过多 Agent 协作实现的原理感知科学发现

PiFlow：通过多 Agent 协作实现的原理感知科学发现

RL Tango：协同增强生成器和验证器用于语言推理

RL Tango：协同增强生成器和验证器用于语言推理

HumaniBench：一个以人为中心的用于大型多模态模型评测的框架

HumaniBench：一个以人为中心的用于大型多模态模型评测的框架

WebNovelBench：在网络小说分布上定位LLM小说家

WebNovelBench：在网络小说分布上定位LLM小说家

BanditSpec: 基于多臂老虎机算法的适应性推测性解码

BanditSpec: 基于多臂老虎机算法的适应性推测性解码

在不牺牲的前提下精简 - 消除LMM中的计算冗余

在不牺牲的前提下精简 - 消除LMM中的计算冗余

扩展和增强基于 LLM 的 AVSR：稀疏投影器混合方法

扩展和增强基于 LLM 的 AVSR：稀疏投影器混合方法

MultiHal：一个用于基于知识图谱评估LLM幻觉的多语言数据集

MultiHal：一个用于基于知识图谱评估LLM幻觉的多语言数据集

上下文学习通过对说话人和语言变体的类人适应提升语音识别

上下文学习通过对说话人和语言变体的类人适应提升语音识别

特定语言知识: 模型在 X 语言中知道得比英语更好吗？

特定语言知识: 模型在 X 语言中知道得比英语更好吗？