Kandinsky 5.0:一个用于图像和视频生成的基础模型系列

发表
taesiritaesiri 提交
作者: Vladimir Arkhipkin, Vladimir KorviakovVladimir Korviakov, Nikolai GerasimenkoNikolai Gerasimenko, Denis Parkhomenko, Viacheslav VasilevViacheslav Vasilev, Alexey LetunovskiyAlexey Letunovskiy, Kovaleva MariaMaria Kovaleva, Nikolay VaulinNikolai Vaulin, Ivan KirillovIvan Kirillov, Lev NovitskiyLev Novitskiy, Denis Koposov, Nikita KiselevNikita Kiselev, Varlamov AlexanderAlexander Varlamov, Dmitrii MikhailovDmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna DmitrienkoAnna Dmitrienko, Anastasia Maltseva, Anna AverchenkovaAnna Averchenkova, Olga Kim, Tatiana Nikulina, Denis DimitrovDenis Dimitrov

摘要

AI 生成总结
Kandinsky 5.0是一个最先进的生成模型家族,用于高分辨率图像和短视频,其模型系列具有不同的参数和增强的训练技术,以实现卓越的质量和性能。
本报告介绍了Kandinsky 5.0,一个用于高分辨率图像和10秒视频合成的SOTA基础模型系列。该框架包含三个核心模型系列:Kandinsky 5.0 Image Lite——一个包含6B参数图像生成模型系列,Kandinsky 5.0 Video Lite——一个快速轻量级的2B参数文本到视频和图像到视频模型,以及Kandinsky 5.0 Video Pro——一个具有19B参数的模型,可实现卓越的视频生成质量。我们对多阶段训练管道的数据整理生命周期进行了全面回顾——包括收集、处理、过滤和聚类——该管道涉及广泛的预训练,并结合了自我监督微调(SFT)和基于强化学习(RL)的后训练等质量增强技术。我们还提出了新颖的架构、训练和推理优化,使Kandinsky 5.0能够实现高生成速度和在各种任务上的SOTA性能,这已通过人工评估得到证实。作为一个大规模、公开可用的生成框架,Kandinsky 5.0充分利用其预训练和后续阶段的潜力,以适应广泛的生成应用。我们希望这份报告,连同我们开源代码和训练检查点的发布,能够大大推动研究社区高质量生成模型的发展和可访问性。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

本报告介绍了 Kandinsky 5.0,一个用于高分辨率图像和 10 秒视频合成的顶尖基础模型家族。该框架包含三个核心模型系列:Kandinsky 5.0 Image Lite——一个拥有 6B 参数的图像生成模型系列;Kandinsky 5.0 Video Lite——一个快速轻量级的 2B 参数文本到视频和图像到视频模型;以及 Kandinsky 5.0 Video Pro——拥有 19B 参数的模型,可实现卓越的视频生成质量。我们对数据整理生命周期进行了全面回顾——包括收集、处理、过滤和聚类——以用于涉及大量预训练并结合了自监督微调(SFT)和基于强化学习(RL)的后训练等质量增强技术的多阶段训练管道。我们还提出了新颖的架构、训练和推理优化,使 Kandinsky 5.0 能够实现高生成速度和在各种任务中达到最先进的性能,这一点已通过人工评估得到证实。作为一个大规模、公开可用的生成框架,Kandinsky 5.0 充分利用其预训练和后续阶段的潜力,以适应广泛的生成应用。我们希望本报告,连同我们开源代码和训练检查点的发布,能够极大地推进研究界高质量生成模型的开发和可访问性。

Julien ChaumondJulien Chaumond

非常酷,感谢您的总结