弱监督可供性基础的自适应对比学习

发表
Hyun Seok SeongHyun Seok Seong 提交
作者: WonJun MoonWonJun Moon, Hyun Seok SeongHyun Seok Seong, Jae-Pil Heo

摘要

为了促进实体与物体的交互,需要准确识别能够实现特定动作的部件。弱监督可及性基础(WSAG)旨在模仿人类从第三人称演示中学习,人类可以凭直觉掌握功能性部件,而无需像素级标注。为了实现这一点,基础通常使用来自不同视角的图像的共享分类器进行学习,同时结合包含部件发现过程的蒸馏策略。然而,由于可及性相关部件并非总是易于区分,模型主要依赖分类,通常侧重于与可及性无关的常见类特定模式。为了解决这一限制,我们通过引入选择性原型和像素对比目标,超越了孤立的部件级学习,这些目标可以根据可用信息的粒度,自适应地在部件和物体层面学习可及性相关线索。首先,我们利用CLIP在两种(以自身为中心(物体导向)和以外部为中心(第三人称示例))图像中找到与动作相关的物体。然后,通过交叉引用互补视图的已发现物体,我们在每个视角中挖掘精确的部件级可及性线索。通过持续学习区分与可及性相关的区域和与可及性无关的背景,我们的方法有效地将激活从无关区域转移到有意义的可及性线索。实验结果证明了我们方法的有效性。代码可在github.com/hynnsk/SelectiveCL获取。
查看 arXiv 页面查看 PDF

评论

Hyun Seok SeongHyun Seok Seong
论文作者
论文提交者

关键词:可供性识别、弱监督可供性识别、弱监督对象定位

Hyun Seok SeongHyun Seok Seong
论文作者
论文提交者

为了促进实体与物体的交互,需要准确识别能够实现特定动作的部件。弱监督可供性识别(WSAG)旨在模仿人类从第三方演示中学习,人类能够直观地掌握功能性部件,而无需像素级标注。为了实现这一目标,通常使用来自不同视角的图像共享分类器进行识别学习,并结合包含部件发现过程的知识蒸馏策略。然而,由于与可供性相关的部件并非总是容易区分,模型主要依赖于分类,通常侧重于与可供性无关的常见类别特定模式。为了解决这一局限性,我们超越了孤立的部件级学习,引入了选择性原型和像素对比目标,它们根据可用信息的粒度,自适应地学习部件和对象级别的与可供性相关的线索。首先,我们利用 CLIP 在主观视角(以物体为中心)和客观视角(第三方示例)图像中找到与动作相关的对象。然后,通过交叉引用互补视角的已发现对象,我们在每个视角中挖掘精确的部件级可供性线索。通过持续学习区分与可供性相关的区域和与可供性无关的背景上下文,我们的方法有效地将激活从无关区域转移到有意义的可供性线索。实验结果证明了我们方法的有效性。