依托上海交通大学AI for Science科学数据开源开放平台,学院概况人工智能研究院杨小康教授、刘满华教授团队开展AI+冷冻电镜三维重建研究,近期取得重要成果,论文于2024年7月12日发表在《Nature Machine Intelligence》(自然-机器智能)。该工作针对冷冻电镜图像数据极低信噪比和方向不均匀性导致重建分辨率受限的挑战,提出基于生成式人工智能的冷冻电镜三维重建算法(CryoNeFEN),利用不同投影视角图像之间的关联性,学习空间域坐标到三维密度图连续映射的神经辐射场,实现不同姿态下立体结构的一致性重建,显著提高单颗粒冷冻电镜数据(如膜蛋白、尖刺蛋白、同源五聚体等)重建的三维密度图分辨率,取得冷冻电镜图像高分辨率三维重建的重要突破,在GABAAR beta3同源五聚体数据集上达到了接近原子精度的分辨率,相关代码已开源。
研究背景
高分辨率蛋白质结构解析对揭示其功能和调控机制以及理解分子相互作用具有重要意义,有助于推动生物药物研发和疾病诊疗的发展。冷冻电镜的进展为大分子蛋白质结构解析提供了重要手段,随着冷冻电镜和人工智能技术的快速发展,蛋白质密度图重建的分辨率有所提高,结构生物学在利用冷冻电镜密度图提高原子模型结构解析分辨率取得进步。然而,现有方法基于二维频域切片迭代优化,忽略切片分布的不均匀性,限制了高频信息的重建,密度图的局部分辨率仍处于3~10Å。如何从冷冻电镜高噪声图像中解析出高分辨率高精度的密度图,在近原子分辨率~1.5Å下解析三维结构,仍然是该领域亟待解决的问题。近年来生成式人工智能技术的快速发展,为冷冻电镜三维密度图重建提供了新的发展方向,蛋白质结构解析研究由少量数据驱动的规律研究,转向大数据驱动的高分辨复杂构象研究。近年来,上海交大人工智能研究院的视觉智能团队杨小康院长和刘满华教授开展冷冻电镜三维智能重建关键技术研究,针对冷冻电镜图像高噪声、极低信噪比导致重建分辨率受限的挑战,提出基于生成式人工智能的冷冻电镜三维重建算法(CryoNeFEN),创新性地构建三维空间优化的神经辐射场模型,显著提高密度图的分辨率,提高原子模型三维结构解析分辨率。
创新成果
Cryo-EM neural field reconstructing network(CryoNeFEN)通过构建神经辐射场深度学习模型隐式表示三维空间坐标与蛋白质概率密度图之间的连续映射,从大量高噪声、极低信噪比和方向随机性的冷冻电镜单颗粒图像数据中重建高分辨率三维结构密度图。传统冷冻电镜重建算法主要基于傅里叶域切片迭代优化,受限于二维投影与傅里叶切片的分布不均匀性,在傅里叶域的高频区域无法重建出高质量的结构细节信息。不同于现有算法,CryoNeFEN利用来自不同视角的二维投影图和冷冻电镜成像的物理模型,根据姿态和相关参数,直接从三维实域空间无监督优化CryoNeFEN网络参数,学习空间域坐标到三维密度图的连续映射,减少了重建中的噪声和伪影,重建蛋白质三维立体结构。该方法在多个EMPIAR公开数据集进行了实验验证,结果表明该方法相比现有算法不仅有效提高了三维重建分辨率,而且能实现蛋白质多构象高分辨率三维重建。
CryoNeFEN算法流程图和蛋白质三维重建结果
在TRPV1通道蛋白(EMPIAR-10005)的冷冻电镜图像数据集上,该方法比现有方法提升了0.27Å的整体分辨率,局部分辨率的均值提升了0.8Å,高分辨率的局部区域体积提升了三倍。此外,论文提出了量化三维结构的方向均匀性指标——傅里叶切片相关性(FSLC),该指标计算了在不同视角下重建三维结构的相似性。论文提出的方法在视角分布不均匀的数据集上,取得了优于传统傅里叶域方法的方向均匀性,重建出无伪影的TRPV1蛋白结构。
TRPV1通道膜蛋白结构三维重建结果
在GABAAR beta3同源五聚体(EMPIAR-10500)的冷冻电镜数据集上,取得了接近原子分辨率精度1.76Å总体分辨率,局部分辨率的均值达到了1.78Å,部分原子的位置可以直接在重建的密度图中解析。通过与发布的原子模型7a5v比对,CryoNeFEN重建算法的傅立叶壳相关性(Fourier shell correlation,FSC)提升了1.9Å,这对于高分辨率原子模型结构解析具有重要意义。
GABAAR beta3同源五聚体三维重建结果
与此同时,为了实现对蛋白质结构的多构象重建,论文利用编码器结构,将每张二维投影图像映射到表示不同构象的隐变量空间,根据该隐变量控制生成的蛋白质三维结构构象。对于RAGs复合体数据集,论文方法重建了五种不同的代表性构象,这些构象与该复合体的特性相一致。对于SARS-CoV-2尖刺蛋白数据集,论文方法实现了对动态区域的细节重建,解析出对应于受体结合区打开的蛋白质构象,该构象在传统迭代方法中是结构缺失的,表明论文方法不仅显著提升重建分辨率和鲁棒性,而且提升多构象蛋白质中的运动结构细节重建。
SARS-CoV-2尖刺蛋白多构象三维重建结果
研究意义
高分辨率结构重建是生物大分子研究中最具挑战性和实用性的研究课题之一。本研究针对冷冻电镜三维蛋白质结构重建问题,不同于现有的基于傅里叶切片定理的三维重建算法,创新性地提出以三维空间域优化新范式和神经辐射场深度学习重建方法,学习三维蛋白质结构的连续隐式表达。它利用基于坐标的神经网络,学习从编码空间坐标到相应密度值的连续映射,并减少了重建中的噪声和伪影,显著提升重建分辨率。通过多组实验数据集,验证了cryoNeFEN在冷冻电镜三维重建中的高分辨率,在GABAAR beta3同源五聚体数据集上达到了接近原子精度的分辨率,在异质多构象重建中也表现出良好的性能。成功展示了生成式人工智能在冷冻电镜三维重建方面的卓越能力,为使用深度网络进行高分辨率重建铺平了道路,为多构象结构重建和蛋白质结构组装提供了技术支撑,促进更精确的原子模型解析。
期刊信息
《Nature Machine Intelligence》(自然-机器智能)是一本由国际著名科学期刊《Nature》出版的同行评议计算科学领域的顶级学术期刊,致力于发表基于机器智能的交叉学科成果,以新颖的方式使用机器学习来寻找新见解、解决具有挑战性的实际问题。涵盖计算方法、数据科学、人工智能、AI for Science等各个计算科学领域的高质量研究成果。
论文信息
相关成果以“High-resolution real-space reconstruction of cryo-EM structures using neural field network”为题发表在《Nature Machine Intelligence》。上海交通大学为论文第一完成单位,人工智能研究院博士生黄跃为论文第一作者,杨小康教授、刘满华教授为论文通讯作者。研究获得了国家重点研发计划、上海市人工智能重大专项计划、上海交通大学AI for Science科学数据开源开放平台的支持。