TalkingMachines:通过自回归扩散模型生成实时音频驱动的FaceTime风格视频

发表
weimin wangweimin wang 提交
作者: Chetwin Low, Weimin Wang

摘要

在本文中,我们提出了 TalkingMachines——一个高效的框架,可将预训练的视频生成模型转换为实时、音频驱动的角色动画器。TalkingMachines 通过将音频大型语言模型(LLM)与我们的视频生成基础模型相结合,实现自然的对话体验。我们的主要贡献包括:(1) 我们将预训练的 SOTA 图像到视频 DiT 适配为具有 180 亿参数的音频驱动头像生成模型;(2) 我们通过将双向教师模型的知识非对称蒸馏到稀疏因果自回归学生模型中,实现了无限视频流而无错误累积;(3) 我们设计了一个高吞吐量、低延迟的推理流水线,其中包含多项关键工程优化,例如:(a) 将 DiT 和 VAE 解码器解耦到不同的设备上,(b) 使用 CUDA 流高效重叠设备间通信和计算,(c) 消除冗余计算以最大化帧生成吞吐量。演示视频请见此处:https://aaxwaz.github.io/TalkingMachines/
查看 arXiv 页面查看 PDF

评论

weimin wangweimin wang
论文提交者

技术报告 - https://arxiv.org/abs/2506.03099

演示 - https://aaxwaz.github.io/TalkingMachines/