⏶7
DiffSpectra:利用扩散模型从光谱中解析分子结构
发表
由
Liang Wang 提交
作者:
Liang Wang,
Yu Rong, Tingyang Xu, Zhenyi Zhong, Zhiyuan Liu, Pengju Wang, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang

摘要
分子结构从谱图中解析是化学领域的一个基础问题,对化合物鉴定、合成和药物开发具有深远影响。传统方法严重依赖专家解读,缺乏可扩展性。开创性的机器学习方法引入了基于检索的策略,但它们对有限库的依赖限制了对新分子的泛化能力。生成模型提供了一种有前景的替代方案,然而大多数采用自回归的基于SMILES的架构,这些架构忽略了3D几何信息,并且难以整合多样化的光谱模态。在这项工作中,我们提出了DiffSpectra,这是一个生成框架,它利用扩散模型直接从多模态光谱数据推断2D和3D分子结构。DiffSpectra将结构解析表述为条件生成过程。其去噪网络由扩散分子Transformer(Diffusion Molecule Transformer)参数化,这是一种SE(3)等变架构,能够整合拓扑和几何信息。条件化由SpecFormer提供,SpecFormer是一个基于Transformer的光谱编码器,能够捕获多模态谱图中的谱内和谱间依赖关系。大量实验表明,DiffSpectra在结构解析方面实现了高精度,通过采样以16.01%的Top-1准确率和96.86%的Top-20准确率恢复了精确结构。该模型显著受益于3D几何建模、SpecFormer预训练和多模态条件化。这些结果强调了光谱条件扩散建模在解决分子结构解析挑战方面的有效性。据我们所知,DiffSpectra是第一个统一多模态光谱推理和联合2D/3D生成建模,以实现从头分子结构解析的框架。




分子结构的光谱解析是化学领域的一个基础问题,对化合物鉴定、合成和药物开发具有深远影响。传统方法严重依赖专家解读,且缺乏可扩展性。开创性的机器学习方法引入了基于检索的策略,但其对有限库的依赖限制了对新型分子的泛化能力。生成模型提供了一种有前景的替代方案,然而大多数采用基于SMILES的自回归架构,忽略了3D几何信息,并且难以整合多样化的光谱模态。在这项工作中,我们提出了DiffSpectra,这是一个生成框架,它利用扩散模型直接从多模态光谱数据中推断2D和3D分子结构。DiffSpectra将结构解析表述为一个条件生成过程。其去噪网络由Diffusion Molecule Transformer参数化,这是一个整合了拓扑和几何信息的SE(3)等变架构。条件作用由SpecFormer提供,这是一个基于Transformer的光谱编码器,能够捕获多模态光谱中的谱内和谱间依赖关系。大量实验证明,DiffSpectra在结构解析中实现了高精度,通过采样恢复精确结构的top-1准确率为16.01%,top-20准确率为96.86%。该模型显著受益于3D几何建模、SpecFormer预训练和多模态条件作用。这些结果凸显了光谱条件扩散建模在解决分子结构解析挑战方面的有效性。据我们所知,DiffSpectra是第一个统一了多模态光谱推理和用于从头分子结构解析的联合2D/3D生成建模的框架。