⏶18
EgoTwin:第一人称的身体和视角梦想
发表
由
Ziwei Liu 提交

作者:
Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan,
Ziwei Liu

摘要
虽然外部视频合成取得了巨大进展,但以自身为中心的视频生成仍然很大程度上未被充分探索,这需要对第一人称视图内容以及由佩戴者身体运动引起的摄像机运动模式进行建模。为了弥合这一差距,我们引入了一项新颖的联合以自身为中心的视频和人体运动生成任务,其特点是两个关键挑战:1)视角对齐:生成的视频中的摄像机轨迹必须与源自人体运动的头部轨迹精确对齐;2)因果相互作用:合成的人体运动必须与相邻视频帧中的观察到的视觉动态因果对齐。为了解决这些挑战,我们提出了EgoTwin,一个构建在扩散 Transformer 架构上的联合视频-运动生成框架。具体来说,EgoTwin引入了一种以头部为中心的运动表示,该表示将人体运动锚定在头部关节上,并包含一个受控制论启发的交互机制,该机制在注意力操作中显式捕获视频和运动之间的因果相互作用。为了进行全面评估,我们策划了一个大规模的同步文本-视频-运动三元组真实世界数据集,并设计了新颖的指标来评估视频-运动一致性。大量的实验证明了EgoTwin框架的有效性。
项目:https://egotwin.pages.dev
论文:https://arxiv.org/abs/2508.13013