每日论文

空间强制：视觉-语言-动作模型的隐式空间表征对齐

空间强制：视觉-语言-动作模型的隐式空间表征对齐

通过自监督预训练推进端到端像素空间生成建模

通过自监督预训练推进端到端像素空间生成建模

DITING：用于基准测试网络小说翻译的多代理评估框架

DITING：用于基准测试网络小说翻译的多代理评估框架

缩放以语言为中心的全模态表示学习

缩放以语言为中心的全模态表示学习

机器人学习：教程

大型语言模型中的情绪编码调查

通过下一个点预测检测任何事物

RAG-Anything：全能型 RAG 框架

RAG-Anything：全能型 RAG 框架

FlashVSR：面向实时基于扩散的流式视频超分辨率

FlashVSR：面向实时基于扩散的流式视频超分辨率

Dr.LLM：LLM中的动态层路由

Dr.LLM：LLM中的动态层路由

时间对齐指导：扩散模型中的流形采样

时间对齐指导：扩散模型中的流形采样

ERA：通过具身先验学习和在线强化学习将 VLMs 转化为具身代理

ERA：通过具身先验学习和在线强化学习将 VLMs 转化为具身代理

R-WoM：用于计算机使用代理的可检索增强世界模型

R-WoM：用于计算机使用代理的可检索增强世界模型

SRUM：统一多模态模型的细粒度自我奖励

SRUM：统一多模态模型的细粒度自我奖励

UniFusion：视语模型作为图像生成的统一编码器

UniFusion：视语模型作为图像生成的统一编码器

口头采样：如何缓解模式崩溃并解锁 LLM 的多样性

口头采样：如何缓解模式崩溃并解锁 LLM 的多样性

记忆即行动：面向长距离代理任务的自主上下文策划

记忆即行动：面向长距离代理任务的自主上下文策划

解构注意力：探究有效语言模型的设计原则

解构注意力：探究有效语言模型的设计原则

基于边界的策略优化，用于扩散大型语言模型的高效强化学习

基于边界的策略优化，用于扩散大型语言模型的高效强化学习

DeepMMSearch-R1：赋能多模态 LLM 进行多模态网络搜索

DeepMMSearch-R1：赋能多模态 LLM 进行多模态网络搜索

SAIL-Embedding 技术报告：全模态嵌入基础模型

SAIL-Embedding 技术报告：全模态嵌入基础模型

HoneyBee：视语推理器的数据配方

HoneyBee：视语推理器的数据配方

ContextGen: 身份一致的多实例生成的上下文布局锚定

ContextGen: 身份一致的多实例生成的上下文布局锚定

假如：通过稀疏交互理解运动

张量逻辑：人工智能的语言

推理的几何学：表示空间中的流动逻辑

推理的几何学：表示空间中的流动逻辑

连续上下文：基于指令的图像编辑的连续强度控制

连续上下文：基于指令的图像编辑的连续强度控制

机器翻译的 LLM 推理：关于思维令牌的合成数据生成

机器翻译的 LLM 推理：关于思维令牌的合成数据生成

一生学习：从无指导探索中推断随机环境的符号世界模型

一生学习：从无指导探索中推断随机环境的符号世界模型

MLLM 作为 UI 裁判：对多模态 LLM 进行基准测试，以预测人类对用户界面的感知

MLLM 作为 UI 裁判：对多模态 LLM 进行基准测试，以预测人类对用户界面的感知

谨慎的权重衰减

ExpVid: 实验视频理解与推理基准

ExpVid: 实验视频理解与推理基准

SR-Scientist：使用代理人工智能进行科学方程发现

SR-Scientist：使用代理人工智能进行科学方程发现

通过上下文折叠扩展长视界 LLM 代理

通过上下文折叠扩展长视界 LLM 代理

通过端到端基于摘要的上下文管理来扩展 LLM 多轮强化学习

通过端到端基于摘要的上下文管理来扩展 LLM 多轮强化学习

ViCO：一种面向语义感知动态高分辨率的训练策略

ViCO：一种面向语义感知动态高分辨率的训练策略

检测大型语言模型训练后强化学习中的数据污染

检测大型语言模型训练后强化学习中的数据污染

用于反蒸馏的推理痕迹的信息保持重构

用于反蒸馏的推理痕迹的信息保持重构

ReFIne：一个具有可靠性、忠实性和可解释性的可信大型推理模型框架

ReFIne：一个具有可靠性、忠实性和可解释性的可信大型推理模型框架

SynthID-Image：互联网规模的图像水印

SynthID-Image：互联网规模的图像水印

深入研究带来更深的伤害

颠覆基于推理的安全防护栏的技巧集

颠覆基于推理的安全防护栏的技巧集

Diffusion-Link：用于弥合音频-文本模态差距的扩散概率模型

Diffusion-Link：用于弥合音频-文本模态差距的扩散概率模型

通过噪声感知引导缓解去噪生成模型的噪声偏移

通过噪声感知引导缓解去噪生成模型的噪声偏移

Locket: 语言模型的鲁棒特征锁定技术

Locket: 语言模型的鲁棒特征锁定技术

为什么 Transformer 在上下文学习时无法预测时间序列？

为什么 Transformer 在上下文学习时无法预测时间序列？

dInfer：扩散语言模型的有效推理框架

dInfer：扩散语言模型的有效推理框架