元学习人脑高级视觉皮层的语境Transformer模型

发表
Andrew LuoAndrew Luo 提交
作者: Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew LuoAndrew F. Luo

摘要

理解高级视觉皮层的功能表征是计算神经科学中的一个基础问题。尽管在大型数据集上预训练的人工神经网络与人类神经响应表现出显著的表征一致性,但学习视觉皮层的图像可计算模型依赖于个体层面、大规模的fMRI数据集。昂贵、耗时且往往不切实际的数据采集需求限制了编码器对新受试者和新刺激的泛化能力。BraInCoRL使用情境学习(in-context learning),仅从少量示例中预测体素级神经响应,而无需对新受试者和新刺激进行额外微调。我们利用一种Transformer架构,它可以灵活地根据可变数量的情境图像刺激进行条件化,从而在多个受试者上学习一种归纳偏置。在训练过程中,我们明确地优化模型以进行情境学习。通过联合调节图像特征和体素活动,我们的模型学会直接生成性能更好的高级视觉皮层体素级模型。我们证明了BraInCoRL在低数据量条件下评估全新图像时,性能始终优于现有的体素级编码器设计,同时也展现出强大的测试时缩放行为。该模型还可以泛化到全新的视觉fMRI数据集,该数据集使用了不同的受试者和fMRI数据采集参数。此外,BraInCoRL通过关注语义相关的刺激,促进了对高级视觉皮层神经信号的更好解释性。最后,我们展示了我们的框架能够实现从自然语言查询到体素选择性的可解释映射。
查看 arXiv 页面查看 PDF
元学习人脑高级视觉皮层的语境Transformer模型

评论

Andrew LuoAndrew Luo
论文作者
论文提交者

理解高级视觉皮层中的功能表征是计算神经科学中的一个基本问题。虽然在大型数据集上预训练的人工神经网络表现出与人类神经反应惊人的表征一致性,但学习视觉皮层的图像可计算模型依赖于个体级别的大规模 fMRI 数据集。昂贵、耗时且通常不切实际的数据采集需求限制了编码器对新受试者和刺激的泛化能力。BraInCoRL 使用情境学习 (in-context learning) 从少样本示例预测体素级神经反应,无需对新受试者和刺激进行额外的微调。我们利用一种 transformer 架构,它可以灵活地以可变数量的情境图像刺激为条件,学习跨多个受试者的归纳偏置。在训练过程中,我们明确地优化模型以进行情境学习。通过联合以图像特征和体素激活为条件,我们的模型学会直接生成性能更好的高级视觉皮层体素级模型。我们证明,在低数据环境下,当用全新的图像进行评估时,BraInCoRL 始终优于现有的体素级编码器设计,同时还展现出强大的测试时扩展能力 (test-time scaling behavior)。该模型还能泛化到全新的视觉 fMRI 数据集,该数据集使用不同的受试者和 fMRI 数据采集参数。此外,BraInCoRL 通过关注语义相关的刺激,有助于更好地解释高级视觉皮层中的神经信号。最后,我们展示了我们的框架能够实现从自然语言查询到体素选择性的可解释映射。