视觉多智能体系统:通过视觉流缓解幻觉滚雪球效应

发表
neil yuneil yu 提交
作者: Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan

摘要

AI 生成总结
ViF 通过选定的视觉标记增强视觉注意力和消息中继,从而减轻了多代理系统中的视觉幻觉滚雪球效应。
由视觉语言模型 (VLM) 驱动的多智能体系统 (MAS) 能够完成具有挑战性的任务,但存在一种新颖的故障项——多智能体视觉幻觉滚雪球效应,即幻觉在一个智能体中被播种,并通过后续智能体过度依赖文本流来传递视觉信息而得到放大。 通过轮次、层级和 token 级别的注意力分析,我们对幻觉滚雪球效应的本质提供了详细的见解,即视觉注意力分配的减少。 这使我们能够识别出一部分视觉 token,它们在中间层具有单一的注意力峰值,最能保留视觉证据,但在更深的智能体轮次中逐渐减弱,从而导致 MAS 中出现视觉幻觉滚雪球效应。 因此,我们提出了 ViF,一个轻量级的即插即用缓解范例,它通过由选定的视觉中继 token 驱动的视觉流来传递智能体间消息,并应用注意力重新分配来放大这种模式。 实验结果表明,我们的方法显著减少了幻觉滚雪球效应,在基于四种常见 MAS 结构和十个基础模型的八个基准上持续提高了性能。 源代码可在以下网址获取:https://github.com/YU-deep/ViF.git
查看 arXiv 页面查看 PDF