动态镜头以及何处寻找

发表
Chris RockwellChris Rockwell 提交
作者: Chris Rockwell, Joseph Tung, Tsung-Yi Lin, Ming-Yu Liu, David F. Fouhey, Chen-Hsuan Lin

摘要

大规模标注动态互联网视频上的相机姿态,对于推动真实感视频生成和模拟等领域的发展至关重要。然而,收集这样的数据集是很困难的,因为大多数互联网视频都不适合用于姿态估计。此外,即使对于最先进的方法而言,标注动态互联网视频也存在显著挑战。在本文中,我们介绍了 DynPose-100K,这是一个大规模的动态互联网视频数据集,附带相机姿态标注。我们的数据收集流程利用精心组合的一系列任务特异性模型和通用模型来解决过滤问题。对于姿态估计,我们结合了点跟踪、动态遮罩和运动恢复结构等最新技术,取得了优于最先进方法的改进。我们的分析和实验表明,DynPose-100K 在多个关键属性上既具有大规模性又具有多样性,为各种下游应用领域的发展开辟了道路。
查看 arXiv 页面查看 PDF

评论

Chris RockwellChris Rockwell
论文提交者

数据集下载: https://huggingface.co/datasets/nvidia/dynpose-100k