⏶23
GenDoP:作为摄影指导的自回归相机轨迹生成
04月09日发表
04月10日由
Zhang Mengchen 提交

作者:
Mengchen Zhang, Tong Wu,
Jing Tan,
Ziwei Liu,
Gordon Wetzstein,
Dahua Lin


摘要
相机轨迹设计在视频制作中起着至关重要的作用,是传达导演意图和增强视觉叙事的基本工具。在电影摄影中,摄影指导精心设计相机运动,以实现富有表现力和意图的构图。然而,现有的相机轨迹生成方法仍然有限:传统方法依赖于几何优化或手工制作的程序系统,而最近基于学习的方法通常继承结构性偏差或缺乏文本对齐,限制了创造性合成。在这项工作中,我们引入了一个受摄影指导专业知识启发的自回归模型,以生成艺术性和富有表现力的相机轨迹。我们首先介绍了 DataDoP,一个大规模多模态数据集,包含 2.9 万个真实世界镜头,具有自由移动的相机轨迹、深度图和详细的字幕,描述了特定的运动、与场景的互动以及导演意图。得益于全面而多样化的数据库,我们进一步训练了一个自回归的、仅解码器 Transformer,用于基于文本引导和 RGBD 输入的高质量、上下文感知的相机运动生成,名为 GenDoP。广泛的实验表明,与现有方法相比,GenDoP 提供了更好的可控性、更精细的轨迹调整和更高的运动稳定性。我们相信我们的方法为基于学习的电影摄影树立了新的标准,为未来相机控制和电影制作的进步铺平了道路。我们的项目网站:https://kszpxxzmc.github.io/GenDoP/。
相机轨迹设计在视频制作中起着至关重要的作用,它是传达导演意图和增强视觉叙事的基本工具。在电影摄影中,摄影指导精心设计相机运动,以实现富有表现力和有意的构图。然而,现有的相机轨迹生成方法仍然有限:传统方法依赖于几何优化或手工制作的程序系统,而最近基于学习的方法通常继承了结构性偏差或缺乏文本对齐,限制了创造性合成。在这项工作中,我们引入了一个受摄影指导专业知识启发的自回归模型,以生成艺术性和富有表现力的相机轨迹。我们首先介绍了 DataDoP,一个大规模多模态数据集,包含 2.9 万个真实世界镜头,其中包含自由移动的相机轨迹、深度图和详细的字幕,描述了特定的运动、与场景的互动以及导演意图。得益于全面而多样化的数据库,我们进一步训练了一个自回归、仅解码器 Transformer,用于基于文本指导和 RGBD 输入的高质量、上下文感知的相机运动生成,名为 GenDoP。广泛的实验表明,与现有方法相比,GenDoP 提供了更好的可控性、更精细的轨迹调整和更高的运动稳定性。我们相信我们的方法为基于学习的电影摄影建立了一个新的标准,为未来相机控制和电影制作的进步铺平了道路。
网站: https://kszpxxzmc.github.io/GenDoP/
论文: https://arxiv.org/abs/2504.07083
代码: https://github.com/3DTopia/GenDoP