⏶5
假如:通过稀疏交互理解运动
发表
由
Stefan Baumann 提交
作者:
Stefan Andreas Baumann, Nick Stracke, Timy Phan, Björn Ommer
摘要
理解物理场景的动态性涉及推理其潜在的各种变化方式,特别是作为局部相互作用的结果。我们提出了 Flow Poke Transformer (FPT),一个用于直接预测局部运动分布的新颖框架,该分布以稀疏交互(称为“poke”)为条件。与通常只允许对场景动态的单个实现进行密集采样的传统方法不同,FPT 提供了一个可解释的、直接可访问的场景多模态运动表示,其对物理交互的依赖性以及场景动态的固有不确定性。我们还在几个下游任务上评估了我们的模型,以实现与先前方法的比较,并强调我们方法的灵活性。在密集人脸运动生成方面,我们通用的预训练模型优于专业的基线。FPT 可以在高度分布外的任务中进行微调,例如合成数据集,从而在关节对象运动估计方面取得显著优于领域内方法的性能。此外,直接预测显式运动分布使得我们的方法能够在诸如从 poke 进行移动部分分割等任务上获得有竞争力的性能,这进一步证明了我们 FPT 的多功能性。代码和模型可在 https://compvis.github.io/flow-poke-transformer 公开获取。

理解物理场景的动态性涉及推理其可能发生的各种变化,尤其是在局部相互作用的结果下。
我们提出了 Flow Poke Transformer (FPT),一个新颖的框架,用于直接预测局部运动的分布,并以稀疏的“戳”(pokes)交互作为条件。
与传统方法通常只允许对场景动态的单一实现进行密集采样不同,FPT 提供了一种可解释的、直接可访问的表示,用于表示多模态场景运动、其对物理交互的依赖性以及场景动态的固有不确定性。