⏶45
Latent Zoning Network: 用于生成建模、表示学习和分类的统一原理
发表
由
Zinan Lin 提交

作者:
Zinan Lin,
Enshu Liu,
Xuefei Ning,
Junyi Zhu, Wenyu Wang, Sergey Yekhanin


摘要
AI 生成总结
潜在分区网络(LZN)通过为不同数据类型创建共享潜在空间,统一了生成建模、表示学习和分类。生成建模、表示学习和分类是机器学习 (ML) 中的三个核心问题,但它们的最先进 (SoTA) 解决方案仍然很大程度上是独立的。
在本文中,我们问:一个统一的原则能否解决所有三个问题?
这种统一可以简化 ML 管道并促进任务之间的协同作用。
我们引入潜在区域网络 (LZN) 作为实现这一目标的一步。
其核心是,LZN 创建一个共享的高斯潜在空间,该空间编码跨所有任务的信息。
每种数据类型(例如,图像、文本、标签)都配有一个编码器,将样本映射到不相交的潜在区域,以及一个解码器,将潜在数据映射回数据。
ML 任务表示为这些编码器和解码器的组合:例如,标签条件图像生成使用标签编码器和图像解码器;图像嵌入使用图像编码器;分类使用图像编码器和标签解码器。
我们在三个日益复杂的场景中展示了 LZN 的潜力:(1)LZN 可以增强现有模型(图像生成):当与最先进的 Rectified Flow 模型结合时,LZN 在 CIFAR10 上将 FID 从 2.76 提高到 2.59,而无需修改训练目标。(2)LZN 可以独立解决任务(表示学习):LZN 可以实现无监督表示学习,无需辅助损失函数,在 ImageNet 的下游线性分类任务上,其性能分别比开创性的 MoCo 和 SimCLR 方法高出 9.3% 和 0.2%。(3)LZN 可以同时解决多个任务(联合生成和分类):通过图像和标签编码器/解码器,LZN 按设计联合执行这两项任务,从而提高 FID 并达到 CIFAR10 的最先进分类准确率。
代码和训练模型可在 https://github.com/microsoft/latent-zoning-networks 获取。
项目网站是 https://zinanlin.me/blogs/latent_zoning_networks.html。
将在 NeurIPS 2025 上发表
网站: https://zinanlin.me/blogs/latent_zoning_networks.html
代码和模型: https://github.com/microsoft/latent-zoning-networks