⏶43
交互式生成视频综述
发表
由
Jiwen Yu 提交

作者:
Jiwen Yu, Yiran Qin,
Haoxuan Che, Quande Liu,
Xintao Wang,
Pengfei Wan,
Di Zhang, Kun Gai, Hao Chen,
Xihui Liu



摘要
互动式生成视频 (IGV) 已成为应对各领域对高质量、互动式视频内容日益增长的需求的关键技术。在本文中,我们将 IGV 定义为一种结合了生成能力以产生多样化高质量视频内容与互动功能的技术,后者通过控制信号和响应式反馈实现用户参与。我们调查了 IGV 应用的当前现状,重点关注三个主要领域:1) 游戏,IGV 在其中实现了虚拟世界的无限探索;2) 具身 AI,IGV 作为物理感知环境合成器,用于在动态演变场景中训练具备多模态互动的智能体;以及 3) 自动驾驶,IGV 为安全关键的测试和验证提供闭环仿真能力。为了指导未来的发展,我们提出了一个全面的框架,将一个理想的 IGV 系统分解为五个基本模块:生成 (Generation)、控制 (Control)、记忆 (Memory)、动力学 (Dynamics) 和智能 (Intelligence)。此外,我们系统地分析了实现理想 IGV 系统中每个组件的技术挑战和未来方向,例如实现实时生成、实现开放领域控制、保持长期一致性、模拟精确物理以及集成因果推理。我们相信,这项系统性分析将促进 IGV 领域的未来研究和开发,最终推动该技术向更复杂、更实际的应用发展。


ArXiv 链接: https://arxiv.org/pdf/2504.21853