扩散模型

LongLive：实时交互式长视频生成

LongLive：实时交互式长视频生成

NextStep-1：迈向具有连续标记的大规模自回归图像生成

NextStep-1：迈向具有连续标记的大规模自回归图像生成

Self-Forcing++：迈向分钟级高质量视频生成

扩展用于高分辨率图像合成的修正流Transformer

扩展用于高分辨率图像合成的修正流Transformer

Story2Board：一种无需训练的富有表现力的故事板生成方法

Story2Board：一种无需训练的富有表现力的故事板生成方法

OmniConsistency：从配对风格化数据中学习与风格无关的一致性

OmniConsistency：从配对风格化数据中学习与风格无关的一致性

GPT-4o图像生成能力实证研究

GPT-4o图像生成能力实证研究

OmniInsert: 通过扩散 Transformer 模型实现任何参考的无掩码视频插入

DreamID: 通过三元组身份群组学习实现高保真快速扩散模型换脸

DreamID: 通过三元组身份群组学习实现高保真快速扩散模型换脸

VisualCloze：通过视觉上下文学习的通用图像生成框架

TAG: 幻觉抵抗扩散采样的切向放大引导

TAG: 幻觉抵抗扩散采样的切向放大引导

结合自回归 Transformer 和扩散模型与多引用自回归

结合自回归 Transformer 和扩散模型与多引用自回归

反演与编辑：通过循环一致性模型实现高效快速的图像编辑

反演与编辑：通过循环一致性模型实现高效快速的图像编辑

规模化图像和视频生成：通过测试时演化搜索

规模化图像和视频生成：通过测试时演化搜索

径向注意力：具有能量衰减的 O(nlog n) 稀疏注意力用于长视频生成

Tinker：扩散模型对3D的馈赠——无需逐场景优化，即可从稀疏输入进行多视图一致性编辑

倾听内在声音：通过中间特征反馈对齐 ControlNet 训练

倾听内在声音：通过中间特征反馈对齐 ControlNet 训练

RiemannLoRA: 用于无歧义 LoRA 优化的统一黎曼框架

RiemannLoRA: 用于无歧义 LoRA 优化的统一黎曼框架

I2VGen-XL：通过级联扩散模型实现高质量图像到视频合成

I2VGen-XL：通过级联扩散模型实现高质量图像到视频合成

无需变分自编码器的潜在扩散模型

无需变分自编码器的潜在扩散模型

DanceGRPO：在视觉生成中释放 GRPO 的力量

DanceGRPO：在视觉生成中释放 GRPO 的力量

ViDAR: 基于视频扩散感知的单目输入4D重建

ViDAR: 基于视频扩散感知的单目输入4D重建

InfGen：一种分辨率无关的可扩展图像合成范式

InfGen：一种分辨率无关的可扩展图像合成范式

UMO：通过匹配奖励来扩展多身份一致性以实现图像定制

UMO：通过匹配奖励来扩展多身份一致性以实现图像定制

Cobra: 具有更广泛参考的高效线稿着色

Cobra: 具有更广泛参考的高效线稿着色

StableAvatar：无限长音频驱动的虚拟形象视频生成

StableAvatar：无限长音频驱动的虚拟形象视频生成

神经驱动图像编辑

通过注意力头选择实现细粒度扰动引导

通过注意力头选择实现细粒度扰动引导

Drax：通过离散流匹配进行语音识别

Drax：通过离散流匹配进行语音识别

CogView3：通过中继扩散实现更精细更快速的文本到图像生成

CogView3：通过中继扩散实现更精细更快速的文本到图像生成

DeepCache：免费加速扩散模型

DeepCache：免费加速扩散模型

采用对抗性后训练的快速文本到音频生成

利用扩散模型实现程序化图像编辑

利用扩散模型实现程序化图像编辑

通过动态令牌雕刻实现免训练的高效视频生成

通过动态令牌雕刻实现免训练的高效视频生成

帧引导：视频扩散模型中帧级控制的免训练引导

Mind-the-Glitch：用于检测主体驱动生成中不一致之处的视觉对应

通过正交微调控制文本到图像扩散

通过正交微调控制文本到图像扩散

3D场景生成综述

CoDA：协调扩散噪声优化，用于铰接物体的全身操纵

迷失在潜在空间：潜在扩散模型在物理仿真中的实证研究

迷失在潜在空间：潜在扩散模型在物理仿真中的实证研究

OBS-Diff: 扩散模型的一次性精确剪枝

OBS-Diff: 扩散模型的一次性精确剪枝

PickStyle：利用上下文风格适配器进行视频到视频的风格迁移

对齐你的流：扩展连续时间流图蒸馏

对齐你的流：扩展连续时间流图蒸馏

HiWave：通过小波扩散采样实现免训练高分辨率图像生成

HiWave：通过小波扩散采样实现免训练高分辨率图像生成

FreeMorph：利用扩散模型进行免调优的通用图像变形

FreeMorph：利用扩散模型进行免调优的通用图像变形

DiffusionNFT: 正向过程的在线扩散强化

DiffusionNFT: 正向过程的在线扩散强化

视觉自回归模型在推理时间扩展方面优于扩散模型

视觉自回归模型在推理时间扩展方面优于扩散模型

ZipIR：用于高分辨率图像复原的潜在金字塔扩散Transformer

ZipIR：用于高分辨率图像复原的潜在金字塔扩散Transformer

MusicLDM：使用节拍同步混合策略增强文本到音乐生成的新颖性

MusicLDM：使用节拍同步混合策略增强文本到音乐生成的新颖性

基于自回归模型的个性化文本到图像生成

基于自回归模型的个性化文本到图像生成

角色动画中的生成式 AI：技术、应用与未来方向的全面综述

角色动画中的生成式 AI：技术、应用与未来方向的全面综述

MotionRAG：面向视频生成的运动检索增强图像

MotionRAG：面向视频生成的运动检索增强图像

HoloTime: 驯服视频扩散模型用于全景 4D 场景生成

HoloTime: 驯服视频扩散模型用于全景 4D 场景生成

UNCAGE：文本到图像生成中掩码生成式 Transformer 的对比注意力引导

UNCAGE：文本到图像生成中掩码生成式 Transformer 的对比注意力引导

直接将完整的扩散轨迹与细粒度人类偏好对齐

直接将完整的扩散轨迹与细粒度人类偏好对齐

InstructX：迈向量模型引导下的统一视觉编辑

InstructX：迈向量模型引导下的统一视觉编辑

UniGeo：控制视频扩散模型用于统一一致的几何估计

UniGeo：控制视频扩散模型用于统一一致的几何估计

噪声超网络：摊销扩散模型中的测试时间计算

噪声超网络：摊销扩散模型中的测试时间计算

从反思到完善：通过反射调优扩展文本到图像扩散模型的推理时优化

从反思到完善：通过反射调优扩展文本到图像扩散模型的推理时优化

DCM: 高效高质量视频生成的双专家一致性模型

DCM: 高效高质量视频生成的双专家一致性模型

归一化注意力引导：扩散模型的通用负向引导

NeRFiller：通过生成式3D图像修复完成场景

NeRFiller：通过生成式3D图像修复完成场景

通过嵌入式表示预热进行高效生成模型训练

通过嵌入式表示预热进行高效生成模型训练

用于快速扩散采样的可微分求解器搜索

用于快速扩散采样的可微分求解器搜索

AnyI2V：通过运动控制将任意条件图像动画化

AnyI2V：通过运动控制将任意条件图像动画化

图像扩散模型中的局部性源于数据统计

图像扩散模型中的局部性源于数据统计

D^2iT：用于精确图像生成的动态扩散Transformer

D^2iT：用于精确图像生成的动态扩散Transformer

精准配色：融合感知色彩空间与文本嵌入，提升扩散生成质量

精准配色：融合感知色彩空间与文本嵌入，提升扩散生成质量

JAM：一个具有细粒度可控性和审美对齐的微型流式歌曲生成器

JAM：一个具有细粒度可控性和审美对齐的微型流式歌曲生成器

通过直接分组偏好优化强化扩散模型

通过直接分组偏好优化强化扩散模型

EPiC：通过精准的锚定视频引导实现高效的视频摄像机控制学习

EPiC：通过精准的锚定视频引导实现高效的视频摄像机控制学习

通过词法偏置的自回归图像水印：一种抵抗再生成攻击的方法

通过词法偏置的自回归图像水印：一种抵抗再生成攻击的方法

环境扩散 Omni：用坏数据训练好模型

环境扩散 Omni：用坏数据训练好模型

面向指令引导图像编辑的视觉自回归建模

面向指令引导图像编辑的视觉自回归建模

LoRA-Edit：通过掩码感知LoRA微调实现可控的首帧引导视频编辑

LAMIC：多模态扩散 Transformer 可扩展性驱动的布局感知多图像合成

LAMIC：多模态扩散 Transformer 可扩展性驱动的布局感知多图像合成

3D-Fixup: 利用3D先验知识提升照片编辑

3D-Fixup: 利用3D先验知识提升照片编辑

PrismLayers: 用于高质量多层透明图像生成模型的开放数据

PrismLayers: 用于高质量多层透明图像生成模型的开放数据

DiffDecompose：通过扩散Transformer实现Alpha合成图像的逐层分解

DiffDecompose：通过扩散Transformer实现Alpha合成图像的逐层分解

利用可分解流匹配改进渐进式生成

利用可分解流匹配改进渐进式生成

DiffSpectra：利用扩散模型从光谱中解析分子结构

DiffSpectra：利用扩散模型从光谱中解析分子结构

TC-LoRA：用于自适应扩散控制的按时间调制的条件 LoRA

TC-LoRA：用于自适应扩散控制的按时间调制的条件 LoRA

几何可编辑且外观保持的物体合成

几何可编辑且外观保持的物体合成

SpA2V: 利用空间听觉线索进行音频驱动的空间感知视频生成

SpA2V: 利用空间听觉线索进行音频驱动的空间感知视频生成

StrandDesigner：通过草图引导实现实用链条生成

StrandDesigner：通过草图引导实现实用链条生成

Bifrost-1：通过补丁级CLIP潜在特征连接多模态大型语言模型和扩散模型

Bifrost-1：通过补丁级CLIP潜在特征连接多模态大型语言模型和扩散模型

离散噪声反演用于下一代自回归文本图像编辑

离散噪声反演用于下一代自回归文本图像编辑

DC-Gen：通过深度压缩的潜在空间进行训练后扩散加速

DC-Gen：通过深度压缩的潜在空间进行训练后扩散加速

LightCache：用于视频生成的内存高效、无需训练的加速器

LightCache：用于视频生成的内存高效、无需训练的加速器

掷骰子，三思而后行：超越下一个 token 预测的创造性限制

掷骰子，三思而后行：超越下一个 token 预测的创造性限制

解耦身份，协同情感：关联感知的情感口播肖像生成

解耦身份，协同情感：关联感知的情感口播肖像生成

WorldGenBench：一个用于推理驱动的文本到图像生成的集成了世界知识的基准测试

WorldGenBench：一个用于推理驱动的文本到图像生成的集成了世界知识的基准测试

VARD：利用基于价值的强化学习对扩散模型进行高效且密集微调

VARD：利用基于价值的强化学习对扩散模型进行高效且密集微调

TLB-VFI: 时间感知潜在布朗桥扩散用于视频帧插值

TLB-VFI: 时间感知潜在布朗桥扩散用于视频帧插值

FlashEdit：解耦速度、结构和语义以进行精确图像编辑

FlashEdit：解耦速度、结构和语义以进行精确图像编辑

平衡匹配：基于隐式能量模型的生成建模

平衡匹配：基于隐式能量模型的生成建模

G^2RPO：用于流模型中精确奖励的粒度GRPO

G^2RPO：用于流模型中精确奖励的粒度GRPO

使用强化学习训练扩散模型

用于高效3D LiDAR场景补全的直接偏好优化扩散蒸馏

用于高效3D LiDAR场景补全的直接偏好优化扩散蒸馏

ReMoMask：检索增强型掩蔽运动生成

ReMoMask：检索增强型掩蔽运动生成

SAEdit：通过稀疏自编码器对连续图像编辑进行令牌级别控制

SAEdit：通过稀疏自编码器对连续图像编辑进行令牌级别控制

绝对坐标使运动生成变得容易

SridBench：图像生成模型科学研究插图绘制评测

SridBench：图像生成模型科学研究插图绘制评测

审计与修复：文本到图像扩散模型中故事可视化一致性的代理框架

审计与修复：文本到图像扩散模型中故事可视化一致性的代理框架

SpotEdit：视觉引导的图像编辑方法评估

SpotEdit：视觉引导的图像编辑方法评估