弥合视角:一项关于结合自我中心-外部中心视觉的跨视角协同智能综述

发表
Guo ChenGuo Chen 提交
作者: Yuping He, Yifei Huang, Guo ChenGuo Chen, lulidongLidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato

摘要

从自我中心(第一人称)和外部中心(第三人称)两种视角感知世界是人类认知的基础,它能够对动态环境产生丰富而互补的理解。近年来,让机器利用这两种视角的协同潜力已成为视频理解领域一个引人注目的研究方向。在本次综述中,我们全面回顾了从外部中心和自我中心两种视角进行的视频理解。我们首先强调了整合自我中心和外部中心技术的实际应用,展望了它们在不同领域的潜在协作。接着,我们确定了实现这些应用的关键研究任务。随后,我们将最新进展系统地组织并回顾为三个主要研究方向:(1)利用自我中心数据增强外部中心理解,(2)利用外部中心数据改进自我中心分析,以及(3)统一两种视角的联合学习框架。对于每个方向,我们分析了各种任务和相关工作。此外,我们讨论了支持这两种视角研究的基准数据集,评估了它们的范围、多样性和适用性。最后,我们讨论了当前工作的局限性,并提出了有前景的未来研究方向。通过综合这两种视角的见解,我们的目标是激发视频理解和人工智能的进步,使机器更接近于以类人的方式感知世界。相关工作的GitHub仓库可在 https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision 找到。
查看 arXiv 页面查看 PDF

评论

Guo ChenGuo Chen
论文作者
论文提交者

从自我中心(第一人称)和外在中心(第三人称)两种视角感知世界是人类认知的基础,它能够对动态环境产生丰富而互补的理解。近年来,让机器利用这两种视角的协同潜力已成为视频理解领域一个引人注目的研究方向。在这项综述中,我们全面回顾了从外在中心和自我中心两种视角进行的视频理解研究。我们首先强调了整合自我中心和外在中心技术的实际应用,并展望了它们在不同领域的潜在协作。接着,我们确定了实现这些应用的关键研究任务。随后,我们将最新进展系统地组织并回顾为三个主要研究方向:(1) 利用自我中心数据增强外在中心理解,(2) 利用外在中心数据改进自我中心分析,以及 (3) 统一两种视角的联合学习框架。对于每个方向,我们分析了多种任务和相关工作。此外,我们讨论了支持两种视角研究的基准数据集,评估了它们的范围、多样性和适用性。最后,我们讨论了当前工作的局限性,并提出了有前景的未来研究方向。通过综合这两种视角的见解,我们的目标是激发视频理解和人工智能领域的进步,使机器更接近人类感知世界的方式。