Lumen:使用视频生成模型进行一致的视频重照明与和谐的背景替换

发表
taesiritaesiri 提交
作者: Jianshu Zeng, Yuxuan Liu, Yutong Feng, Chenxuan Miao, Zixiang Gao, Jiwang Qu, Jianzhang Zhang, Bin Wang, Kun Yuan

摘要

视频重新打光是一项具有挑战性但很有价值的任务,旨在替换视频中的背景,同时相应地调整前景中的光照,并实现和谐的融合。在转换过程中,必须保留前景的原始属性,例如反照率,并在时间帧之间传播一致的重新打光。在本文中,我们提出了 Lumen,一个基于大规模视频生成模型开发的端到端视频重新打光框架,它接收灵活的文本描述来指导光照和背景的控制。考虑到在各种光照条件下具有相同前景的高质量配对视频的稀缺性,我们构建了一个包含真实和合成视频混合的大规模数据集。对于合成领域,受益于社区中丰富的3D资产,我们利用先进的3D渲染引擎来策划多样化环境中的视频对。对于真实领域,我们采用基于HDR的光照模拟来弥补野外配对视频的不足。在上述数据集的支持下,我们设计了一个联合训练课程,以有效地发挥每个领域的优势,即合成视频中的物理一致性,以及真实视频中广义的领域分布。为了实现这一点,我们向模型注入了一个领域感知适配器,以解耦重新打光和领域外观分布的学习。我们构建了一个全面的基准,从前景保留和视频一致性评估的角度,与现有方法一起评估 Lumen。实验结果表明,Lumen 可以有效地将输入编辑成具有一致光照和严格前景保留的电影级重新打光视频。我们的项目页面:https://lumen-relight.github.io/
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 视频补光是一项具有挑战性但很有价值的任务,旨在替换视频中的背景,同时相应地调整前景的光照并实现和谐的融合。在转换过程中,保留前景的原始属性(例如反照率)并确保时间帧之间补光的一致性至关重要。在本文中,我们提出了 Lumen,一个基于大规模视频生成模型的端到端视频补光框架,它接收灵活的文本描述来指导光照和背景的控制。考虑到在各种光照条件下具有相同前景的高质量配对视频稀缺,我们构建了一个包含真实和合成视频的大规模数据集。对于合成领域,得益于社区中丰富的 3D 资产,我们利用先进的 3D 渲染引擎在不同环境中策划视频对。对于真实领域,我们采用基于 HDR 的光照模拟来弥补野外配对视频的不足。在上述数据集的支持下,我们设计了一个联合训练课程,以有效发挥每个领域的优势,即合成视频中的物理一致性和真实视频中的广义领域分布。为了实现这一点,我们在模型中注入了一个域感知适配器,以解耦补光学习和域外观分布。我们构建了一个全面的基准来评估 Lumen 和现有方法,从前景保留和视频一致性评估的角度。实验结果表明,Lumen 有效地将输入编辑成具有一致光照和严格前景保留的电影级补光视频。我们的项目页面:https://lumen-relight.github.io/