⏶21

IllumiCraft：统一几何与光照扩散实现可控视频生成

06月03日发表

06月05日由 yz 提交

作者: Yuanze Lin, Yi-Wen Chen, Tsai Yi-Hsuan Yi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang

摘要

尽管基于扩散模型可以从文本或图像输入生成高质量、高分辨率的视频序列，但在控制跨帧的场景光照和视觉外观时，它们缺乏对几何线索的明确整合。为了解决这一限制，我们提出了 IllumiCraft，这是一个端到端的扩散框架，接受三种互补输入：(1) 高动态范围（HDR）视频映射，用于详细的光照控制；(2) 带有随机光照变化的合成重打光帧（可选地与静态背景参考图像配对），以提供外观线索；以及 (3) 捕获精确 3D 几何信息的 3D 点轨迹。通过将光照、外观和几何线索整合到统一的扩散架构中，IllumiCraft 生成与用户定义提示对齐的时间连贯视频。它支持背景条件和文本条件的视频重打光，并比现有可控视频生成方法提供更好的保真度。项目页面：https://yuanze-lin.me/IllumiCraft_page

查看 arXiv 页面查看 PDF