⏶223
Kandinsky 5.0:一个用于图像和视频生成的基础模型系列
发表
由
taesiri 提交
作者: Vladimir Arkhipkin,
Vladimir Korviakov,
Nikolai Gerasimenko, Denis Parkhomenko,
Viacheslav Vasilev,
Alexey Letunovskiy,
Maria Kovaleva,
Nikolai Vaulin,
Ivan Kirillov,
Lev Novitskiy, Denis Koposov,
Nikita Kiselev,
Alexander Varlamov,
Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva,
Anna Dmitrienko, Anastasia Maltseva,
Anna Averchenkova, Olga Kim, Tatiana Nikulina,
Denis Dimitrov
摘要
AI 生成总结
Kandinsky 5.0是一个最先进的生成模型家族,用于高分辨率图像和短视频,其模型系列具有不同的参数和增强的训练技术,以实现卓越的质量和性能。本报告介绍了Kandinsky 5.0,一个用于高分辨率图像和10秒视频合成的SOTA基础模型系列。该框架包含三个核心模型系列:Kandinsky 5.0 Image Lite——一个包含6B参数图像生成模型系列,Kandinsky 5.0 Video Lite——一个快速轻量级的2B参数文本到视频和图像到视频模型,以及Kandinsky 5.0 Video Pro——一个具有19B参数的模型,可实现卓越的视频生成质量。我们对多阶段训练管道的数据整理生命周期进行了全面回顾——包括收集、处理、过滤和聚类——该管道涉及广泛的预训练,并结合了自我监督微调(SFT)和基于强化学习(RL)的后训练等质量增强技术。我们还提出了新颖的架构、训练和推理优化,使Kandinsky 5.0能够实现高生成速度和在各种任务上的SOTA性能,这已通过人工评估得到证实。作为一个大规模、公开可用的生成框架,Kandinsky 5.0充分利用其预训练和后续阶段的潜力,以适应广泛的生成应用。我们希望这份报告,连同我们开源代码和训练检查点的发布,能够大大推动研究社区高质量生成模型的发展和可访问性。
本报告介绍了 Kandinsky 5.0,一个用于高分辨率图像和 10 秒视频合成的顶尖基础模型家族。该框架包含三个核心模型系列:Kandinsky 5.0 Image Lite——一个拥有 6B 参数的图像生成模型系列;Kandinsky 5.0 Video Lite——一个快速轻量级的 2B 参数文本到视频和图像到视频模型;以及 Kandinsky 5.0 Video Pro——拥有 19B 参数的模型,可实现卓越的视频生成质量。我们对数据整理生命周期进行了全面回顾——包括收集、处理、过滤和聚类——以用于涉及大量预训练并结合了自监督微调(SFT)和基于强化学习(RL)的后训练等质量增强技术的多阶段训练管道。我们还提出了新颖的架构、训练和推理优化,使 Kandinsky 5.0 能够实现高生成速度和在各种任务中达到最先进的性能,这一点已通过人工评估得到证实。作为一个大规模、公开可用的生成框架,Kandinsky 5.0 充分利用其预训练和后续阶段的潜力,以适应广泛的生成应用。我们希望本报告,连同我们开源代码和训练检查点的发布,能够极大地推进研究界高质量生成模型的开发和可访问性。