⏶27
StreamDiT: 实时流媒体文本到视频生成
发表
由
Aki 提交

作者:
Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka,
Yue Zhao

摘要
最近,通过将基于Transformer的扩散模型扩展到数十亿参数,文本到视频(T2V)生成取得了巨大进展,这些模型可以生成高质量视频。然而,现有模型通常只能离线生成短视频片段,这限制了它们在交互式和实时应用中的用例。本文通过提出StreamDiT(一种流式视频生成模型)来解决这些挑战。StreamDiT的训练基于流匹配,并添加了一个移动缓冲区。我们设计了混合训练,采用不同的缓冲帧分区方案,以提高内容一致性和视觉质量。StreamDiT的建模基于具有可变时间嵌入和窗口注意力的adaLN DiT。为了实践所提出的方法,我们训练了一个具有40亿参数的StreamDiT模型。此外,我们提出了一种专为StreamDiT定制的多步蒸馏方法。采样蒸馏在所选分区方案的每个片段中进行。蒸馏后,总函数评估次数(NFEs)减少到缓冲区中的块数。最后,我们蒸馏后的模型在单个GPU上实现了16 FPS的实时性能,可以生成512p分辨率的视频流。我们通过定量指标和人工评估来评估我们的方法。我们的模型支持实时应用,例如流式生成、交互式生成和视频到视频。我们的项目网站提供了视频结果和更多示例:<a href="https://cumulo-autumn.github.io/StreamDiT/">此https网址。</a>
我们推出了 StreamDiT,这是一种实时流式文本到视频生成模型,能够生成多样化、开放域的视频场景。
我们的模型支持实时应用,例如流式生成和交互式生成。
这一进步为广泛的下游应用打开了大门,包括实时故事创作、虚拟头像控制和实时内容创作。
我们的方法表明,高效的架构设计和训练策略可以弥合离线生成质量和在线可用性之间的差距,使连续且响应迅速的视频生成在实践中可行。
🌐 项目网站: https://cumulo-autumn.github.io/StreamDiT/
📄 论文: https://arxiv.org/abs/2507.03745
实时生成: 在单个 GPU (H100) 上达到 16 FPS
高分辨率: 512p 视频生成
流式能力: 连续视频生成无长度限制
交互式应用: 支持实时视频编辑和风格迁移
高效架构: 40 亿参数模型,优化推理