神经驱动图像编辑

发表
kaipengkaipeng 提交
作者: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You

摘要

传统图像编辑通常依赖于手动提示,使其劳动密集型,并且对运动控制或语言能力有限的个体而言难以使用。利用脑机接口 (BCI) 和生成模型的最新进展,我们提出了 LoongX,一种由多模态神经生理信号驱动的免手动图像编辑方法。LoongX 利用最先进的扩散模型,该模型在一个包含 23,928 个图像编辑对的综合数据集上进行训练,每个编辑对都与同步的脑电图 (EEG)、功能性近红外光谱 (fNIRS)、光电容积脉搏波描记法 (PPG) 和捕获用户意图的头部运动信号配对。为了有效解决这些信号的异质性,LoongX 集成了两个关键模块。跨尺度状态空间 (CS3) 模块编码信息丰富的模态特异性特征。动态门控融合 (DGF) 模块进一步将这些特征聚合成一个统一的潜在空间,然后通过在扩散变压器 (DiT) 上进行微调,使其与编辑语义对齐。此外,我们使用对比学习预训练编码器,以将认知状态与嵌入式自然语言中的语义意图对齐。大量实验表明,LoongX 实现了与文本驱动方法相当的性能 (CLIP-I: 0.6605 对 0.6558;DINO: 0.4812 对 0.4636),并且当神经信号与语音结合时,性能超越了它们 (CLIP-T: 0.2588 对 0.2549)。这些结果突出了神经驱动生成模型在实现可访问、直观图像编辑方面的潜力,并为认知驱动的创意技术开辟了新方向。数据集和代码将发布,以支持未来的工作并促进这一新兴领域的发展。
查看 arXiv 页面查看 PDF
神经驱动图像编辑

评论

kaipengkaipeng
论文提交者

主页:https://loongx1.github.io/