FlowAct-R1:迈向交互式人形视频生成

发表
taesiritaesiri 提交
作者: Lizhen WangLizhen Wang, ZhuYongming Zhu, gezhipengZhipeng Ge, Youwei ZhengYouwei Zheng, Longhao ZhangLonghao Zhang, Tianshu Hu, shiyangqinShiyang Qin, Mingshuang LuoMingshuang Luo, Jiaxu Zhang, Xin Chen, Yulong Wang, Zerong ZhengZerong Zheng, Jianwen Jiang, Chao Liang, weifeng chenWeifeng Chen, Xing Wang, YuanYuan Zhang, Mingyuan GaoMingyuan Gao

摘要

AI 生成总结
FlowAct-R1 通过 MMDiT 架构和分块扩散强迫(chunkwise diffusion forcing)策略,实现了具有高保真合成和低延迟响应的实时交互式人形视频生成。
交互式写实人像视频生成旨在合成栩栩如生的视觉智能体,使其能够通过连续且响应迅速的视频与人类互动。尽管视频合成技术近期取得了进展,但现有方法往往难以在高质量合成与实时交互需求之间取得平衡。在本文中,我们提出了 FlowAct-R1,这是一个专门为实时交互式人像视频生成设计的框架。FlowAct-R1 基于 MMDiT 架构构建,能够流式合成任意时长的视频,同时保持低延迟响应。我们引入了分块扩散强制(Chunkwise Diffusion Forcing)策略,并辅以一种新颖的自强制(Self-forcing)变体,以缓解误差累积并确保连续交互过程中的长期时间一致性。通过利用高效蒸馏和系统级优化,我们的框架在 480p 分辨率下实现了稳定的 25fps 帧率,且首帧渲染时间(TTFF)仅约 1.5 秒。该方法提供了全面且细粒度的全身控制,使智能体能够在交互场景中自然地切换不同的行为状态。实验结果表明,FlowAct-R1 实现了卓越的行为生动性和感知真实感,同时在不同的人物风格上保持了强大的泛化能力。
查看 arXiv 页面查看 PDF

评论

Joshua NemecekJoshua Nemecek

论文项目主页链接:https://grisoon.github.io/FlowAct-R1/