⏶30
Trace Anything:通过轨迹场在 4D 中表示任何视频
发表
由
taesiri 提交

作者:
Xinhang Liu,
Yuxi Xiao,
Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang


摘要
AI 生成总结
Trace Anything 是一种神经网络,可单次预测视频轨迹,达到最先进的性能,并展现出运动预测等效率和涌现能力。有效的时空表征是建模、理解和预测视频动态的基础。视频的原子单元——像素,会随着时间追踪连续的3D轨迹,作为动态的原始元素。基于这一原理,我们提出将任何视频表示为一个轨迹场(Trajectory Field):一个密集映射,为每一帧中的每个像素分配一个随时间变化的连续3D轨迹函数。利用这种表示,我们引入了Trace Anything,一个神经网络,可以在一次前馈传递中预测整个轨迹场。具体来说,对于每一帧中的每个像素,我们的模型会预测一组控制点,这些控制点参数化了一个轨迹(即B样条),从而在任意查询时间点给出其3D位置。我们在大规模4D数据(包括来自我们新平台的数据)上训练了Trace Anything模型,我们的实验表明:(i)Trace Anything在我们的新轨迹场估计基准上取得了最先进的性能,并在现有的点跟踪基准上表现具有竞争力;(ii) 由于其单次传递范式,它显著提高了效率,而无需迭代优化或辅助估计器;(iii) 它展现出涌现能力,包括目标导向的操控、运动预测和时空融合。项目页面:https://trace-anything.github.io/。
有效的时空表示是视频中建模、理解和预测动态的基础。视频的原子单元,像素,随时间追踪连续的 3D 轨迹,作为动力学的基本元素。基于这一原理,我们提出将任何视频表示为轨迹场:一个密集的映射,为每一帧中的每个像素分配一个随时间变化的连续 3D 轨迹函数。有了这种表示,我们引入了 Trace Anything,一个神经网络,可以在一次前馈通过中预测整个轨迹场。具体来说,对于每一帧中的每个像素,我们的模型会预测一组控制点,这些控制点参数化一个轨迹(即 B 样条),从而在任意查询时间点上得出其 3D 位置。我们在大规模 4D 数据上训练了 Trace Anything 模型,包括来自我们新平台的数据,我们的实验表明:(i)Trace Anything 在我们的新轨迹场估计基准上取得了最先进的性能,并在已有的点跟踪基准上表现具有竞争力;(ii)由于其一次通过的范式,它提供了显著的效率提升,而无需迭代优化或辅助估计器;(iii)它展现出了涌现能力,包括目标条件操纵、运动预测和时空融合。项目页面:this https URL。