每日论文

法线之光：用于通用光度立体的统一特征表示

OmniGen2：探索高级多模态生成

OmniGen2：探索高级多模态生成

LongWriter-Zero：通过强化学习掌握超长文本生成

LongWriter-Zero：通过强化学习掌握超长文本生成

OAgents：构建有效智能体的一项实证研究

OAgents：构建有效智能体的一项实证研究

RLPR：无需验证器将RLVR外推到通用领域

RLPR：无需验证器将RLVR外推到通用领域

视觉作为一种方言：通过文本对齐表示统一视觉理解与生成

视觉作为一种方言：通过文本对齐表示统一视觉理解与生成

Phantom-Data：迈向通用主体一致的视频生成数据集

Phantom-Data：迈向通用主体一致的视频生成数据集

ViDAR: 基于视频扩散感知的单目输入4D重建

ViDAR: 基于视频扩散感知的单目输入4D重建

ReasonFlux-PRM：大型语言模型中长链式思考推理的轨迹感知PRM

ReasonFlux-PRM：大型语言模型中长链式思考推理的轨迹感知PRM

DIP：视觉表示的无监督密集上下文后训练

DIP：视觉表示的无监督密集上下文后训练

VMem：基于曲面点索引视图记忆的一致交互式视频场景生成

3D Arena：一个用于生成式3D评估的开放平台

SlimMoE：通过专家精简和蒸馏对大型MoE模型进行结构化压缩

SlimMoE：通过专家精简和蒸馏对大型MoE模型进行结构化压缩

LettinGo：探索推荐系统中的用户画像生成

LettinGo：探索推荐系统中的用户画像生成

从虚拟游戏到现实玩乐

4Real-Video-V2: 用于4D场景生成的融合视图-时间注意力与前馈重建

4Real-Video-V2: 用于4D场景生成的融合视图-时间注意力与前馈重建

增强多模态大语言模型（MLLM）的逐步可验证医学推理能力

增强多模态大语言模型（MLLM）的逐步可验证医学推理能力

自回归生成多视角一致图像

FinCoT: 将思维链植根于专家金融推理

FinCoT: 将思维链植根于专家金融推理

通过因果评估标准实现稳健的奖励建模

通过因果评估标准实现稳健的奖励建模

ReDit：通过奖励抖动改进大语言模型策略优化

ReDit：通过奖励抖动改进大语言模型策略优化

TC-Light: 动态长视频的时间一致性光照重渲染

TC-Light: 动态长视频的时间一致性光照重渲染

对齐如何缩小生成视界

ConsumerBench：在终端用户设备上对生成式AI应用进行基准测试

ConsumerBench：在终端用户设备上对生成式AI应用进行基准测试

FaithfulSAE：旨在利用稀疏自编码器捕获忠实特征，无需外部数据集依赖

FaithfulSAE：旨在利用稀疏自编码器捕获忠实特征，无需外部数据集依赖

通过Transformer潜在子空间激活引导概念偏差

通过Transformer潜在子空间激活引导概念偏差

4D-LRM：任意时间与视角间的通用大规模时空重建模型

4D-LRM：任意时间与视角间的通用大规模时空重建模型

CommVQ：用于KV缓存压缩的可交换矢量量化

CommVQ：用于KV缓存压缩的可交换矢量量化

我知道哪个LLM去年夏天写了你的代码：LLM生成代码文体学与作者归属分析

我知道哪个LLM去年夏天写了你的代码：LLM生成代码文体学与作者归属分析

揭秘多模态大语言模型中的视觉质量悖论

揭秘多模态大语言模型中的视觉质量悖论

SoK：评估大型语言模型的越狱防护栏

SoK：评估大型语言模型的越狱防护栏

CultureMERT: 跨文化音乐表征学习的持续预训练

CultureMERT: 跨文化音乐表征学习的持续预训练

TPTT：将预训练Transformer改造为巨擘

TPTT：将预训练Transformer改造为巨擘

GEMeX-ThinkVG：通过强化学习在医学视觉问答中实现视觉接地思考

GEMeX-ThinkVG：通过强化学习在医学视觉问答中实现视觉接地思考

审计与修复：文本到图像扩散模型中故事可视化一致性的代理框架

审计与修复：文本到图像扩散模型中故事可视化一致性的代理框架

一种深度学习和机器学习方法，用于预测圣保罗背景下的新生儿死亡

一种深度学习和机器学习方法，用于预测圣保罗背景下的新生儿死亡

Spec2RTL-Agent：使用大型语言模型代理系统从复杂规范自动生成硬件代码

Spec2RTL-Agent：使用大型语言模型代理系统从复杂规范自动生成硬件代码

RePIC：面向多模态语言模型的个性化强化后训练

RePIC：面向多模态语言模型的个性化强化后训练

量化大型语言模型中超越标记的公平性：一个语义和统计的视角

量化大型语言模型中超越标记的公平性：一个语义和统计的视角