使VLM助手与个性化情境认知对齐

发表
Yongqi LiYongqi Li 提交
作者: Yongqi LiYongqi Li, Shen Zhou, Xiaohu Li, Xin Miao, Jintao Wen, Mayi Xu, Jianhao Chen, Birong Pan, Hankun Kang, Yuanyuan Zhu, Ming Zhong, Tieyun Qian

摘要

与通用人类目标(例如无害且无幻觉)对齐的视觉-语言模型(VLM)已成为人类管理视觉任务的宝贵助手。然而,背景多样化的人们即使在相同情境下也有不同的认知。因此,他们可能对VLM助手有个性化的期望。这凸显了将VLM助手与个性化情境认知对齐以提供真实世界协助的迫切需求。为了研究这个问题,我们首先通过基于社会学“角色集”概念来刻画个体,从而简化了问题。接着,我们提出通过评估个体的行为来检验是否实现了个性化对齐。此外,我们构建了一个名为PCogAlignBench的基准测试,它包含18k个实例和20个具有不同角色集的个体。最后,我们提出了一个名为PCogAlign的框架,该框架构建了一个认知感知和基于行动的奖励模型,用于个性化对齐。实验结果和人工评估证明了PCogAlignBench的可靠性以及我们提出的PCogAlign的有效性。我们将在https://github.com/NLPGM/PCogAlign开源所构建的基准测试和代码。
查看 arXiv 页面查看 PDF

评论

Yongqi LiYongqi Li
论文作者
论文提交者

大家好,我们很高兴分享我们在 ACL 2025 主会议上的论文:将 VLM 助手与个性化情境认知对齐。

在这项工作中,我们提出了一项新任务:将 VLM 助手与个性化情境认知对齐,旨在使模型适应真实世界视觉任务中个体用户的认知差异。为支持这项任务,我们引入了 PCogAlignBench,这是一个包含 1.8 万个实例和 20 个不同个体的基准,其构建基于社会学中的角色集(Role-Set)概念。我们还提出了 PCogAlign,一个用于个性化对齐的认知感知奖励框架。实验结果证明了它在捕捉个体期望方面的有效性。