IllumiCraft:统一几何与光照扩散实现可控视频生成

发表
yzyz 提交
作者: Yuanze LinYuanze Lin, Yi-Wen ChenYi-Wen Chen, Tsai Yi-HsuanYi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang

摘要

尽管基于扩散模型可以从文本或图像输入生成高质量、高分辨率的视频序列,但在控制跨帧的场景光照和视觉外观时,它们缺乏对几何线索的明确整合。为了解决这一限制,我们提出了 IllumiCraft,这是一个端到端的扩散框架,接受三种互补输入:(1) 高动态范围(HDR)视频映射,用于详细的光照控制;(2) 带有随机光照变化的合成重打光帧(可选地与静态背景参考图像配对),以提供外观线索;以及 (3) 捕获精确 3D 几何信息的 3D 点轨迹。通过将光照、外观和几何线索整合到统一的扩散架构中,IllumiCraft 生成与用户定义提示对齐的时间连贯视频。它支持背景条件和文本条件的视频重打光,并比现有可控视频生成方法提供更好的保真度。项目页面:https://yuanze-lin.me/IllumiCraft_page
查看 arXiv 页面查看 PDF
IllumiCraft:统一几何与光照扩散实现可控视频生成
IllumiCraft:统一几何与光照扩散实现可控视频生成

评论

yzyz
论文提交者

我们提出了一个统一的扩散架构,该架构共同整合了光照和几何引导,从而实现高质量的视频重打光。它支持对视频进行文本条件和背景条件下的重打光。

yzyz
论文提交者

项目页面:https://yuanze-lin.me/IllumiCraft_page/

GitHub 页面:https://github.com/yuanze-lin/IllumiCraft

YouTube 视频:https://www.youtube.com/watch?v=qAV58sADEzo

如需更多可控的视频生成结果,请查看我们的项目页面。