AI论文精选
扩散模型
⏶
66
扩展用于高分辨率图像合成的修正流Transformer
⏶
63
OmniConsistency:从配对风格化数据中学习与风格无关的一致性
⏶
61
GPT-4o图像生成能力实证研究
⏶
50
DreamID: 通过三元组身份群组学习实现高保真快速扩散模型换脸
⏶
46
VisualCloze:通过视觉上下文学习的通用图像生成框架
⏶
46
结合自回归 Transformer 和扩散模型与多引用自回归
⏶
42
反演与编辑:通过循环一致性模型实现高效快速的图像编辑
⏶
39
规模化图像和视频生成:通过测试时演化搜索
⏶
38
径向注意力:具有能量衰减的 O(nlog n) 稀疏注意力用于长视频生成
⏶
38
倾听内在声音:通过中间特征反馈对齐 ControlNet 训练
⏶
35
I2VGen-XL:通过级联扩散模型实现高质量图像到视频合成
⏶
34
RiemannLoRA: 用于无歧义 LoRA 优化的统一黎曼框架
⏶
29
DanceGRPO:在视觉生成中释放 GRPO 的力量
⏶
29
ViDAR: 基于视频扩散感知的单目输入4D重建
⏶
28
SphereDiff:通过球形潜在表示进行免调优的全方位全景图像和视频生成
⏶
27
Cobra: 具有更广泛参考的高效线稿着色
⏶
26
通过注意力头选择实现细粒度扰动引导
⏶
25
CogView3:通过中继扩散实现更精细更快速的文本到图像生成
⏶
25
神经驱动图像编辑
⏶
24
DeepCache:免费加速扩散模型
⏶
24
利用扩散模型实现程序化图像编辑
⏶
22
通过奖励反向传播对齐文本到图像扩散模型
⏶
22
CoDA:协调扩散噪声优化,用于铰接物体的全身操纵
⏶
22
帧引导:视频扩散模型中帧级控制的免训练引导
⏶
21
采用对抗性后训练的快速文本到音频生成
⏶
21
通过动态令牌雕刻实现免训练的高效视频生成
⏶
21
迷失在潜在空间:潜在扩散模型在物理仿真中的实证研究
⏶
20
通过正交微调控制文本到图像扩散
⏶
19
基于自回归模型的个性化文本到图像生成
⏶
19
3D场景生成综述
⏶
19
FreeMorph:利用扩散模型进行免调优的通用图像变形
⏶
18
ZipIR:用于高分辨率图像复原的潜在金字塔扩散Transformer
⏶
18
MusicLDM:使用节拍同步混合策略增强文本到音乐生成的新颖性
⏶
18
对齐你的流:扩展连续时间流图蒸馏
⏶
17
HiWave:通过小波扩散采样实现免训练高分辨率图像生成
⏶
15
从反思到完善:通过反射调优扩展文本到图像扩散模型的推理时优化
⏶
15
角色动画中的生成式 AI:技术、应用与未来方向的全面综述
⏶
15
HoloTime: 驯服视频扩散模型用于全景 4D 场景生成
⏶
15
UniGeo:控制视频扩散模型用于统一一致的几何估计
⏶
14
DCM: 高效高质量视频生成的双专家一致性模型
⏶
12
通过嵌入式表示预热进行高效生成模型训练
⏶
12
D^2iT:用于精确图像生成的动态扩散Transformer
⏶
11
AnyI2V:通过运动控制将任意条件图像动画化
⏶
10
指南针控制:用于文本到图像生成的多物体方向控制
⏶
10
用于快速扩散采样的可微分求解器搜索
⏶
10
归一化注意力引导:扩散模型的通用负向引导
⏶
9
EPiC:通过精准的锚定视频引导实现高效的视频摄像机控制学习
⏶
9
通过词法偏置的自回归图像水印:一种抵抗再生成攻击的方法
⏶
9
环境扩散 Omni:用坏数据训练好模型
⏶
8
LoRA-Edit:通过掩码感知LoRA微调实现可控的首帧引导视频编辑
⏶
7
3D-Fixup: 利用3D先验知识提升照片编辑
⏶
7
DiffDecompose:通过扩散Transformer实现Alpha合成图像的逐层分解
⏶
7
利用可分解流匹配改进渐进式生成
⏶
7
DiffSpectra:利用扩散模型从光谱中解析分子结构
⏶
6
PrismLayers: 用于高质量多层透明图像生成模型的开放数据
⏶
6
几何可编辑且外观保持的物体合成
⏶
5
用于高效3D LiDAR场景补全的直接偏好优化扩散蒸馏
⏶
5
WorldGenBench:一个用于推理驱动的文本到图像生成的集成了世界知识的基准测试
⏶
5
VARD:利用基于价值的强化学习对扩散模型进行高效且密集微调
⏶
5
TLB-VFI: 时间感知潜在布朗桥扩散用于视频帧插值
⏶
4
使用强化学习训练扩散模型
⏶
4
SridBench:图像生成模型科学研究插图绘制评测
⏶
3
掷骰子,三思而后行:超越下一个 token 预测的创造性限制
⏶
3
审计与修复:文本到图像扩散模型中故事可视化一致性的代理框架
⏶
2
绝对坐标使运动生成变得容易
⏶
2
自动驾驶中用于 3D 占用预测的基于扩散的生成模型
⏶
2
FlowDirector:免训练流向引导实现精准文本到视频编辑
⏶
1
DiffuMural:使用多尺度扩散修复敦煌壁画
⏶
1
迈向多模态理解:以稳定扩散作为任务感知特征提取器