人工智能蛋白质结构设计算法研究进展
Research progress of artificial intelligence in protein design
收稿日期: 2023-01-13 修回日期: 2023-03-15 网络出版日期: 2023-03-29
基金资助: |
|
Received: 2023-01-13 Revised: 2023-03-15 Online: 2023-03-29
作者简介 About authors
蛋白质是各类生命活动不可缺少的承担者,其序列决定了折叠后的三维结构和功能。这些具有特定功能的蛋白质在生物医学等多个领域具有重要的应用价值。计算蛋白质设计可以根据所需的蛋白功能和结构设计氨基酸序列,生成自然界中不存在的蛋白质。传统计算蛋白质设计通常采用能量函数和特定的搜索优化算法获得设计的序列。近年来,随着先进算法的发展、大数据的积累和计算机硬件算力的增长,人工智能技术得到了蓬勃发展,并逐渐应用于蛋白质设计领域。本文综述了近年人工智能在蛋白质结构设计中的进展, 侧重于各类算法的介绍,从固定骨架设计、可变骨架设计和序列结构生成三个方面回顾了最新的蛋白质结构设计算法,并阐明了其相对于传统计算方法的新颖性和创新性。在人工智能技术的赋能下,蛋白质设计的成功率和合理性获得大幅提高,按需功能蛋白设计的时代即将到来。
关键词:
Proteins are essential to life as they carry out a great variety of biological processes. The protein sequence determines its three-dimensional structure and therefore its physiological function. Proteins with specific functions have important applications in many fields such as biomedicine, where they are utilized in drug design and delivery. In the past, protein engineering and directed evolution are commonly used to improve the activity and stability of proteins. These methods, however, are both complex and expensive, as they require a large number of biological experiments as validation. Computational protein design (CPD) allows the design of amino acid sequences based on desired protein function and structure, and more intriguingly, generation of proteins not found in nature. Conventional CPD uses energy function and optimization algorithm to obtain the designed sequence. In recent years, with the rapid development of artificial intelligence (AI) technique, the accumulation of big data and the growth of computer hardware computing power, AI has made great progresses in its learning power and been successfully applied in CPD. In this review, according to the input constraints and sampling space size, we present a systematic overview of recent applications of AI in protein design from three aspects, which consist of fixed-backbone design, flexible-backbone design, and sequence structure generation. We focus on the innovations in algorithms and protein feature encoding, present the effect of dataset size and architectural improvements on model performance in predicting the same benchmark, and showcase several enzymes, antibodies, and binding proteins that were successfully designed using these models. The advantages and innovations of AI compared with traditional CPD methods are also discussed. Finally, based on the recent work and reports, we present a series of problems in AI-aided protein design, and propose some ideas and solutions. If these problems are gradually solved in the future, enabled by AI technology, the success rate of CPD will be greatly improved, and we will enter the era of on-demand functional protein design.
Keywords:
本文引用格式
陈志航, 季梦麟, 戚逸飞.
CHEN Zhihang, JI Menglin, QI Yifei.
蛋白质是生物体内的“生命机器”,在转录、翻译、信号传导和细胞周期调控等几乎所有的生命活动过程中发挥着至关重要的作用。天然蛋白质以一种极端经济且严谨的方式对其氨基酸序列进行编码,并在体内自发折叠成特定三维结构来实现其生物活性。探寻蛋白质结构和功能的关系在过去几十年内一直是基础医学和生物学研究的焦点。随着对蛋白质功能研究的深入和实际应用的展开,天然蛋白质已无法完成人类日益增长的需求。对蛋白质的改造和设计也从依赖天然蛋白的随机突变和定向进化向理性设计,甚至是从头设计(De novo design)全新的具有特定功能的蛋白质转变。
依据Anfinsen的折叠热力学假说[4],蛋白质折叠到最低自由能状态,其3D结构由氨基酸序列决定。然而,在折叠过程中最重要的不是折叠态的绝对能量,而是折叠态与最低的备选态之间的能量差。这种计算不仅涉及到所有可能的氨基酸序列,而且涉及到所有可能的结构,因此多数现有的方法都集中在寻找所需结构的最低能量氨基酸序列这个更容易处理的问题上。目前广泛使用的方法仍然是基于能量函数和启发式采样方法的算法[5]。RosettaDesign[6]、FoldX[7]、EvoDesign / EvoEF2[8]等设计方法使用使用蛋白质结构参数化的打分项来量化氨基酸序列和特定三维结构之间的匹配度,其中RosettaDesign是目前使用最为广泛的方法之一。RosettaDesign采用能量函数[9]来捕捉序列-结构关系,对结构中每个残基侧链的氨基酸种类和构象进行采样,并使用蒙特卡洛模拟退火等方法进行优化以获得低能序列和构象。在过去的三十年中,基于能量函数的蛋白计算设计取得了巨大的进展,包括设计新颖的3D折叠[10]、酶[11]和复合物[11],更包括免疫信号[12-13]、靶向治疗蛋白[14-15]、蛋白质开关[16-17]、自组装蛋白[18-19]等。尽管取得了这些成功,但是基于能量函数的蛋白质设计方法准确度仍然较低,在没有多轮实验试错的情况下无法可靠使用,导致蛋白设计实验成功率难以提升[20]。
以深度学习为代表的人工智能技术,随着算法和算力的发展以及大数据的积累,近期在多个领域取得了重要进展。在生物学和化学领域中,深度神经网络的优势在于可以从蛋白质结构的原子坐标、氨基酸种类、二级结构等简单的输入数据中学习高阶特征。深度学习模型一旦学会了蛋白质特征间的关系,就可以用来为结构生物学和生物分子的设计提供新的见解和指导。海量具备真实性和可用性的数据[21-24]使得深度学习表现出比经典物理模型或其他机器学习方法更好的性能[25]。目前,深度学习已被应用于蛋白质-配体打分[26-29]、蛋白质-蛋白质相互作用预测[30-32]、化合物性质预测[33]、分子结构生成[34-36]等诸多领域[37],近期更是在蛋白质结构预测上取得了引人注目的进展。以AlphaFold[38]和RoseTTAFold[39]为代表的结构预测算法通过多序列比对(Multiple sequence alignment,MSA)、基于注意力机制的序列分析和蛋白三维结构生成等模块,以端到端的方法大幅提高了蛋白三维结构预测的准确率。
在蛋白质设计领域,近年来设计方法也逐渐从基于物理化学原理的打分函数,转变到利用深度学习进行设计的策略。本文中我们将回顾近年深度学习在蛋白设计方向的研究进展,按照模型的采样方式、搜索空间大小和蛋白设计任务的难易程度分成三个方面:①固定主链构象的蛋白质设计,②可变骨架的序列设计,③结构和序列生成模型。在固定骨架设计任务中,模型已知蛋白骨架的走向和残基位置,仅需对骨架上的序列进行设计;可变骨架设计中则允许一定程度的蛋白骨架结构柔性,模型搜索空间增大,设计的自由度提高;生成模型可从头生成全新的蛋白序列和骨架,或根据局部功能位点进行结构补全,解决了前两类设计方法中初始骨架来源的问题。
1 固定主链构象的蛋白质设计
1.1 早期工作
图1
图1
SPROF中残基距离计算方法
((a) dij为残基i和j的C α原子之间的距离,d0=4.0 Å。(b) 蛋白质残基-残基距离矩阵。)
Fig. 1
Residue distance calculation in SPROF
((a) dij is the distance between the Cα atoms of residue i and j, d0=4.0 Å (b) Residue-residue distance matrix of a protein structure.)
1.2 卷积神经网络
卷积神经网络(Convolutional Neural Network, CNN)[48]是最成功的神经网络架构之一,主要包括卷积和池化两种基本操作。在蛋白质设计中,卷积层用于对蛋白质残基间距离图或蛋白质在三维空间网格中的密度距离分布进行变换并提取特征,更深的卷积网络能从输入特征中迭代提取更复杂的特征。池化层通过连续降采样的方式逐渐降低数据的空间尺寸,以减少网络中的参数数量,使得计算资源耗费变少,也有效控制过拟合。另外卷积使得模型能够处理大小可变的输入数据。
图2
图2
三维卷积神经网络提取网格中的蛋白质空间结构信息
Fig. 2
3D convolutional neural network extracts spatial information of a protein structure in 3D grid.
MutCompute[53]使用残基原子(C,H,O,N,S)坐标、部分电荷(partialcharge)和溶剂可及表面积(SASA,solvent-accessible surface area)作为结构特征输入3D-CNN网络。MutCompute以蛋白质中心目标残基的Cα为中心,掩蔽20 Å立方体内的所有肽原子,构造为该残基的局部化学微环境(microenvironment)样本,以这种方式从19300个蛋白质结构中构造170万个微环境作为训练集。训练后的模型能够识别稳定的突变,根据残基局部化学微环境预测蛋白质中不稳定的位点。Lu[54]使用MutCompute模型设计了一种聚对苯二甲酸乙二醇酯(PET)水解酶,指导野生型水解酶PETase组合N233K / R224Q / S121E和骨架的D186H / R280A五个位点的突变,得到的突变体FAST-PETase具有优异的催化活性和热稳定性。FAST-PETase在30至50摄氏度和一系列pH水平之间显示出优越的PET水解活性,适用于至少51种未经处理的PET降解,工业上可广泛用于塑料的回收与循环。
TrDesign[55]使用基于卷积神经网络的结构预测模型trRosetta进行反向序列设计。首先将随机氨基酸序列输入到蛋白质结构预测模型trRosetta[56]中,输出残基之间距离、角度和二面角的分布(图3)。其次计算预测分布与目标蛋白结构分布之间的差异,使用梯度反向传播来更新氨基酸序列,重复该过程直到收敛。TrDesign通过trRosetta遍历全局构象势能面,和RosettaDesign单点能量计算方法相比,能够多方面捕获序列折叠势能,保证设计蛋白质的可折叠性和稳定性。高分辨率的Rosetta模型用于创建目标结构的深度能量极小值,而低分辨率的trRosetta模型用于减少在能量极小值点备选序列的数量。将两种方法结合,能够在遍历势能面的同时减少的候选序列的数量。然而使用trRosetta进行反向序列设计所需要反复运行trRosetta模型,计算效率不高并且容易陷入势能面上次优解。
图3
1.3 图神经网络
在蛋白质序列中距离较远的一对残基在折叠后的三维结构中可能存在近距离相互作用。在网络中引入注意力机制使图网络能够识别残基在三维空间中的紧密/稀疏关系,在考虑全局构象的同时又聚焦局部关键特征。此外,图结构在表示蛋白质结构时,可同时描述主链柔性拓扑结构的全局整体特征和精确原子位置的局部细节特征。使用图结构表征蛋白质具有更高的灵活性和较高的计算效率。
图 4
图 4
GraphTrans编码器与解码器示意图
Fig. 4
Architecture of GraphTrans encoder and decoder
一个给定的蛋白质结构,对应于单一的距离矩阵,可以由许多不同的满足距离矩阵约束的同源序列折叠而成。ProteinSolver[61]是一个预训练的图卷积神经网络,将使用氨基酸序列填充特定目标结构表述为一个约束满足问题( Constraint satisfaction problem),其目标是在兼顾长程和短程的约束的同时,为链中的残基分配氨基酸标签,使得残基之间的作用力是有利的。训练好的ProteinSolver网络能够以很高的准确度快速生成数千个匹配特定蛋白质拓扑结构的序列。
为同时将蛋白质残基几何结构和关系特征的纳入统一网络架构, Jing等提出使用几何向量感知器(Geometric vector perceptron,GVP)[62] (图5)来代替多层感知器(multi-layer perceptron, MLPs)。给定一个标量和向量输入特征( s, V)的元组,GVPs 将残基原子三维坐标转化为残基距离特征,并将其与标量特征组合,输出一个更新的元组( s′, V′)。GVP模型在标量特征进行转换之前,会将其与转换后向量特征的范数进行拼接,这允许模型从输入向量中提取旋转不变信息,以便图中节点的信息传播。GVP-GNN[62]使用GVP层来增强GNN对于几何结构特征的感知,并能够在欧氏向量特征上执行和表达,在蛋白质结构的质量评估和序列设计方面具有独特的优势。
图5
Orellana[63]对上述GVP的结构提出了改进,使用图卷积神经网络(Graph convolutional neural network, GCN)同时对节点和结构信息进行端到端的学习。模型添加每个氨基酸骨架中所有原子之间的归一化距离作为节点特征;将每个氨基酸的Cα与其k个最近邻氨基酸的Cα之间的标准化距离(K值邻近,k=35)作为边特征,然后将节点和边特征嵌入空间进行编码,并将其引入到GCN模型中,输出为序列中每个位置的氨基酸种类,可用于指导基于能量函数的蛋白设计方法。该模型的序列恢复率从以往模型的40.2 %提高到44.7 %。
TERMinator[64]使用三级motifs(TERM)捕获序列-结构关系[65],融合了残基原子坐标信息作为特征。TERMinator提取目标蛋白中与TERM结构匹配的信息来构建节点和边,嵌入空间编码后输入图神经网络中,输出序列空间中拟合了能量函数的Potts模型。GNN Potts模型编码器接受TERM数据并提取特征,使用使用马尔科夫链蒙特卡洛(Markov Chain Monte Carlo,MCMC)模拟退火算法生成最优序列,输出位置氨基酸标签。作者还进行消融了实验,完整的TERMinator模型(恢复率41.73%)性能强于消融TERM信息输入的模型(恢复率40.29%),表明联合使用TERM和空间坐标作为特征有利于蛋白质设计。
ESM-IF1[66]使用GVP来学习向量特征的等变转换和标量特征的不变变换。该工作尝试以下三种架构:(1)GVP-GNN;(2) 更宽和更深的GVP-GNN-large;(3)由GVP-GNN结构编码器和Transformer组成的混合模型。ESM-IF1使用AlphaFold2预测的1200万个结构,将训练数据增加了近3个数据级,克服了实验数据的限制,最终在CATH 4.3测试集上进行评估并根据残基困惑度(Perplexity,越低越好)和序列恢复率进行比较。GVP-GNN-large和GVP-Transformer模型均在序列恢复率上比简单GVP-GNN提高约9%,达到与DenseCPD相当的51%,且困惑度由6降低至4。在突变效应的zero-shot多项预测测试中(包括复合物稳定性、结合亲合力和插入效应),ESM-IF1均取得优异的性能表现。
McPartion[67] 引入了一种深度 SE(3)-等变图 transformer 架构,直接对从蛋白质主链结构衍生的特征进行操作,实现了同时预测每个残基的氨基酸类型和侧链构象。局部感知图(Locality Aware Graph)transformer利用蛋白质主链的几何形状来优化单个残基和残基对的特征表示,并将注意力限制在空间上相邻的残基对上。该模块的输出和蛋白质主链坐标一起被传递到张量融合网络(Tensor fusion network,TFN)[68]输出一个标量和残基位置,然后由TFN-transformer为每个输入残基产生侧链构象和氨基酸类型。作者评估了五种不同的残基掩蔽方法并分别进行了损失函数、网络架构和模型超参数的消融实验,发现从损失函数中移除侧链坐标均方根偏差 (Root Mean Squared Deviation,RMSD)和预测的侧链原子之间的成对距离两个特征显著降低了测试蛋白上的天然序列恢复率。除此之外,移除模型中的 TFN-Transformer 层对恢复率的影响最大。与几种现有的序列设计方法对比而言,该模型在四个测试集上展现了更高的序列恢复率。
ABACUS-R[69-71]使用一个多任务学习的编码器-解码器网络,根据固定骨架上局部环境预测中心位置的残基类型(图6)。网络的输入是目标残基与最邻近k个残基联合形成的局部特征,包含空间层面的相对位置与取向信息、序列层面的相对位置信息以及邻近残基的残基类型。ABACUS-R模型不需要显示地模拟侧链,从而避免优化结构的过程。模型学习到给定结构下侧链类型的能量打分函数,通过在目标骨架上残基的迭代,逐轮降低随机残基数目,使得设计结果逐渐收敛,产生自洽的整体序列。ABACUS-R在单个残基平均序列恢复率达到53%,多个湿实验结果(包括X射线晶体学解析的晶体结构)表明,ABACUS-R在设计精度和成功率方面都优于基于能量函数的从头序列设计方法。
图 6
Roney[72] 认为Alphafold从蛋白质的共进化数据中学习了一个高精度的能量函数,可以在不使用任何共进化数据的情况下,确定蛋白质3D结构和序列之间的关系,从而用于蛋白质设计问题中。该流程类似于TrDesign,将目标蛋白骨架结构提供给AlphaFold作为模板,最小化目标结构和预测结构之间的差异,并优化关于输入序列的复合置信度评分(Composite Confidence Score)。该设计方法达到约30%的序列恢复率。
图 7
虽然不少蛋白设计模型都致力于提升设计序列的恢复率,但在实际的蛋白设计应用中,恢复率最高的序列并不一定是最优解。因此,ProteinMPNN在设计时使用了采样温度来获取更多的差异序列。PDB数据库在收集蛋白质晶体结构数据时会根据序列对原子坐标进行修正,ProteinMPNN训练时在骨架上添加高斯噪声来避免模型学到这种修正带来的误差,以提高模型稳定性并增强模型的泛化能力。噪声的添加在大部分情况下降低了ProteinMPNN的序列恢复率,并使AlphaFold对设计序列进行结构预测时更具有鲁棒性。
ProteinMPNN还使用一种order-agnostic方法使得模型能在结构一部分固定的情况下设计其他部分,这使得ProteinMPNN适用于更复杂的结构,例如蛋白-蛋白复合物,环状蛋白、蛋白质纳米颗粒等。除了计算实验,研究人员使用ProteinMPNN进行了蛋白质单体、蛋白质纳米笼和蛋白质功能设计并对先前使用RosettaDesign 设计失败的蛋白进行了重新设计。这些设计蛋白能在大肠杆菌体系中可溶表达,并在生化实验中验证了其结构和活性,证明了ProteinMPNN设计蛋白的可靠性和合理性。
如果一个设计氨基酸序列的每个残基都与其局部环境很好地吻合,那么它就有望折叠成一个与目标结构相似的结构,ProDESIGN-LE[74] 便采用该思路。ProDESIGN-LE以每个邻近残基的残基类型和相对于中心残基的3×3变换矩阵R和三维平移向量t来表示中心残基的局部环境,将特征输入一个3层的transformer来学习残基对其局部环境的依赖性,并输出其嵌入图,后进一步使用全连接层将嵌入图转化为20种氨基酸类型的分布。训练好的transformer模型在目标结构的序列上迭代地选择合适的残基,并相应地更新相邻残基的局部环境,最终获得所有残基都与自身局部环境匹配良好的设计序列。ProDESIGN - LE模型在计算指标评估和实验验证上均取得不错的结果,在设计的5个CATⅢ蛋白中,有3个具有良好的溶解性。
与CNN方法相比,图模型不需要像CNN那样单独处理每个残基及其周边结构,从而减小了编码的数据规模并提高了训练效率。GNNs能够充分挖掘结构信息并获得不错的序列恢复率,能够正确处理序列中残基对的长、短程相互作用关系,可以在效率和精度之间取得较好的平衡。
随着固定骨架蛋白质序列设计模型的不断发展,其预测性能和精度大幅度提升,序列恢复率逐步提升,预测困惑度逐步降低(表1-2)。
表1 固定骨架序列设计模型在CATH 4.2测试集上的序列恢复率和困惑度[75]
Table 1
表2 固定骨架序列设计模型在TS50 &TS500测试集上的序列恢复率和困惑度[77]
Table 2
模型类别 Group | 模型 Models | TS50 | TS500 | ||
---|---|---|---|---|---|
恢复率%(↑) Recovery % (↑) | 困惑度(↓) Perplexity (↓) | 恢复率%(↑) Recovery %(↑) | 困惑度(↓) Perplexity (↓) | ||
MLP | SPIN | 30.00 | - | - | - |
SPIN2 | 34.00 | - | - | - | |
Wang’s model | 33.00 | - | - | - | |
CNN | SPROF | 39.80 | - | - | - |
ProDCoNN | 46.50 | - | - | - | |
DenseCPD | 50.71 | - | 55.53 | -- | |
GNN | StructGNN | 43.89 | 5.40 | 45.69 | 4.98 |
GraphTrans | 42.20 | 5.60 | 44.66 | 5.16 | |
GVP-GNN | 44.14 | 4.71 | 49.14 | 4.20 | |
GCA[78] | 47.02 | 5.09 | 47.74 | 4.72 | |
ADesign[79] | 48.36 | 5.25 | 49.23 | 4.93 | |
ProteinMPNN | 54.43 | 3.93 | 58.08 | 3.53 | |
PiFold | 58.72 | 3.86 | 60.42 | 3.44 | |
LM-DESIGN(PiFold) | 57.89 | 3.50 | 67.78 | 3.19 |
2 可变骨架的序列设计
与固定骨架设计问题不同,在可变骨架设计问题中,蛋白质确切的骨架结构通常都是未知的,因此在设计过程中需要同时考虑优化序列和结构。
2.1 幻想设计
深度学习神经网络能够从蛋白质结构或节点关系中识别和提取特征并将这些特征显著增强后输出。若反其道行之,对神经元输入一些抽象的特征,让每个神经元模拟出最可能具有这些特征的蛋白结构,再将结构信息反传回网络,经过多轮迭代优化即能生成最合适的蛋白序列或结构。2015年Google发布的DeepDream便是能够以此原理在图片中产生不存在的物品,生成的图片如同梦境中的画面一样。
前文提到trRosetta能够快速预测一个蛋白质序列的空间约束, Ivan[80]重新训练了一个背景网络,将输入trRosetta的序列在自身的输出结构上不断迭代,使预测结构的空间约束逐渐具有清晰的分布,这种方法被称为幻想(Hallucination)设计。首先将一个随机序列转换为折叠蛋白序列的编码,同时输入随机噪音得到背景的空间约束。使用马尔科夫链蒙特卡洛(Markov Chain Monte Carlo,MCMC )算法对序列进行随机突变,再将其输入trRosetta模型中逐轮预测空间约束,以Kullback-Leibler(KL)散度对序列约束和背景约束的分布差异进行优化,使得到的空间约束逐渐逼近真实蛋白质,并借此折叠蛋白3D结构(图8)。
图8
TrDesign-motif[81]将trRosetta和hallucination有机结合起来用以蛋白质结合motif的设计。对于活性位点,初始输入骨架的2D特征作为目标分布,让motif功能部分预测序列与原结构尽可能地相似;而在自由幻想部分,将随机噪音的2D特征分布作为背景,让生成的序列尽可能远离其分布。使用混合的损失函数来优化结构和序列,创造出一个携带功能motif片段的新蛋白结构。
图9
图9
Constrained hallucination模型原理示意图
Fig. 9
Architecture of the Constrained hallucination model
研究人员使用以上三种幻想方法设计了金属蛋白、酶活性位点和蛋白结合蛋白等,并都进行了计算机模拟和实验测试相结合的验证[82]。模型中的inpainting和hallucinate模块能够实现大肠杆菌铁蛋白(E. coli bacterioferritin)双铁结合位点的重新构建,在设计的96个铁蛋白结构中有76个可溶性表达,8个具有金属结合的特征光谱位移,3个具有与AlphaFold折叠结构一致的二级结构(圆二色光谱鉴定),并且能够稳定地与金属络合。幻想设计能够产生碳酸酐酶Ⅱ上三个Zn2+配位组氨酸和环上苏氨酸组成的基序,并正确放置Zn2+配位:幻想模型还构建了参与甾体激素生物合成的D5-3-酮甾体异构酶(KSI)的催化侧链,两种酶的活性位点与天然晶体结构几乎完全匹配。文章中还展示了幻想设计通过固定靶点蛋白和结合蛋白部分位点,修复缺失位点(inpainting)或自由幻想(hallucinate)全新的骨架结构来设计蛋白质结合蛋白的过程。其中设计的结合蛋白pdl1_inp_1与PD-L1结合能力(Kd=326 nM)相较于野生型PD-1(Kd=3.9 mM)增强;设计的TrkA在配体结合时呈现与天然结构相同的二聚化现象; 多种设计的Mdm2癌基因结合蛋白与抑癌蛋白p53的天然N端螺旋结合紧密。
然而,RFDesign在使用RoseTTAFold生成时,由于采用单次运行预测缺失结构的方式,生成的序列长度和结构质量都受到一定限制。
Zhang[83]基于上文提到的hallucinate方法,提出一种从头设计蛋白质折叠的自动自适应优化工具包AutoFoldFinder,通过序列优化的方式产生具有新蛋白元件排列方式的氨基酸序列与结构,使用同余系数图对齐(congruence coefficient map alignment,CM-align)替换hallucinate方法中的KL散度,无需对整个接触图的全局比较,能够更精细地反映接触图在局部二级结构上的特征差异。AutoFoldFinder通过序列优化将生成一千条蛋白质序列中低相似度序列比例从22%提升至30.9%,加入CM-Align方法后,超过50%的结构与已知结构有显著差异。
最近Baker等[84]发布了首个使用深度学习工具从头设计荧光酶结构的工作。研究人员选择合成荧光素酶底物二苯基特拉嗪(diphenylterrazine,DTZ)作为目标酶的作用底物,作者首先构建了DTZ阴离子构象系综,随后围绕每个构象,使用RIFGen方法[85-86]枚举了与DTZ相互作用的氨基酸侧链旋转异构体相互作用场( RIFs ),最后使用RIFDock将每个DTZ构象和RIF在约4000个天然蛋白骨架的中心腔中进行对接,以最大化蛋白- DTZ相互作用。此方法发现与DTZ结构互补的结合口袋中大多为核转运因子2 ( nuclear transport factor 2,NTF2 )家族蛋白,将对接获得的骨架和口袋使用Family-wide hallucination方法进行优化设计。
Family-wide hallucination集成了无限制幻想设计[80, 82]与Rosetta序列设计方法[55],对环(loop)和可变区域(variable regions)的序列和结构进行从头设计,并对核心区域的结构进行序列优化。该方法从2000个天然NTF2s序列出发,在序列空间中进行蒙特卡洛搜索,每一步都进行一次序列变化,并使用trRosetta进行结构预测。模型的损失函数由两部分构成:结构保守区域基于与NTF2 - like蛋白实验结构的输入残基距离和方向分布的一致性进行评估;而可变区域基于网络预测与背景分布之间的KL散度计算的预测残基间几何结构的置信度进行评估。氢键网络也被纳入设计的结构中,以增加结构特异性。实验数据显示Family-wide hallucination生成的1615个骨架在原生结构的空间内采样更多,并且比原生骨架或非深度学习能量优化生成的骨架具有更强的序列结构关系。
研究人员运用以上方法生成的蛋白骨架设计了人工荧光素酶,能够以高选择性催化DTZ的氧化化学发光。其中活性最强的酶LuxSit-i在保持与天然荧光酶催化效率相当的同时大大提高了对底物的特异性和热稳定性(变性温度>95℃)。
2.2 能量模型
可变骨架的蛋白质设计可以分解成骨架结构的生成和固定骨架设计两个独立的子任务。中国科学技术大学刘海燕组提出了一种全新的,使用神经网络形式能量项的统计模型——SCUBA[87],使基于连续采样和优化主链中心能量面来设计新主链的方法成为可能。SCUBA模型将主链的可设计性分解为几个关键因素的作用,包括局部构象倾向性、肽主链氢键几何构象以及手性附着和紧密排列的侧链所需的骨架空间。研究者使用统计能量项来表示各种相互作用,用一种名为邻接计数神经网络(Neighbor counting-neural network, NC-NN)的通用方法训练。NC-NN包含两步过程,首先通过基于核的密度估计(即邻接计数)从原始结构数据估计统计能量值,然后训练神经网络(三层全连接感知机)表示势。得到的统计能量项,除了可以提供易于计算的函数值和导数用于结构采样和优化外,还可以高保真地表示复杂的、高维且高度相关的真实结构数据分布。
在模板未知条件下,使用神经网络形式的能量项模型SCUBA 驱动的随机动力学(Stochastic dynamics)和模拟退火算法(Simulated annealing)来生成可设计的新蛋白质主链骨架,再使用前文中提到的ABACUS2[69]对主链骨架序列进行序列优化和骨架松弛[10]设计的迭代,从而完成对蛋白质的可变骨架从头设计任务。在9种用SCUBA设计的高精度骨架蛋白结构中,其中有4种具有新颖的非天然结构。对于这一结果充分展示了SCUBA在蛋白设计中的实用性,特别是在设计功能蛋白时,能量函数驱动的骨架采样和优化可以很容易地进行定制,以促进对结构空间的广泛探索。另外,SCUBA+ ABACUS2[87]策略所设计的蛋白质具有高于天然蛋白质骨架的热稳定性,设计成功率为~ 42 % ( 38个经实验验证的蛋白质中有16个成功折叠,14个H2E4蛋白质和4个H4蛋白质),设计的骨架与实验获得的结构一致,具有原子精度,同时设计的H2E4和H4蛋白与具有相似结构的已知天然蛋白质具有低序列同一性(平均同一性14%)。
Liang等[88]随后发展了一个基于级数展开的能量函数模型OSCAR-Design。在四个独立的阶段中优化目标函数Etotal =Eside + Ebb + Eref的各项参数,最大化原结构和其他旋转异构体之间的能量差;最小化天然环结构中选择环诱饵之间的RMSD,最大化氨基酸组成与天然序列的相似性;惩罚埋藏的非氢键极性原子。作者使用Monte Carlo模拟退火算法对OSCAR-Design进行测试。OSCAR-Design在侧链和loop预测任务中与OSCAR[89-90]和LEAP[91]一样准确。在从头设计任务中,OSCAR-Design在测试集达到38 ~43 %天然序列恢复率,在75 %的情况下成功保留了亲疏水性残基,在氨基酸组成的整体相似性达到90 %。
3 结构和序列生成模型
在第一部分介绍的蛋白质设计工作中,设计过程往往从设计蛋白的主链结构开始,该结构可以源自天然蛋白质,蛋白结构预测模型的输出、根据对天然蛋白的观察、比较等方式手工搭建的大致三维构象等。近年来机器学习领域生成模型的巨大进展为生成全新的蛋白质结构和序列奠定了基础。深度生成模型在快速发现新颖、合理的蛋白质结构方面有着巨大的潜力。
3.1 生成对抗网络(GAN)与变分自编码器(VAE)
Huang等[92]提出了一种基于生成对抗网络(Generative adversarial network, GAN)的生成模型,策略具体细节如图11所示。蛋白质的结构使用蛋白质主链上成对Cα之间的距离(以埃为单位)来表示。GAN模型中的生成器通过输入一个正态分布随机变量z~N (0, I),输出一个成对距离图,判别器判断生成器输出的结果是真实的(数据样本)或是虚假的(生成器输出),而后生成器对生成的结果不断迭代优化用以欺骗判别器,整个模型最终输出得到合理的成对距离图。得到的距离图随后通过交替方向乘子法(Alternating direction multiplier method,ADMM)折叠成3D结构从而得到Cα的坐标,最后使用一个快速追踪脚本将Cα原子的坐标匹配到一个合理的蛋白质骨架。研究者将此方案应用于补全蛋白质结构中缺失残基的任务,同时还扩展生成建模程序来解决端到端的结构恢复问题,并减少当前模型在精细局部结构中出错的问题。在后续研究中,Huang等人进一步优化了他们的方案[93],通过所有主链原子之间的成对距离来表示蛋白质结构,并提出了一种以可微分的方式直接恢复和细化相应主链坐标的方法(图10)。具体来说,在GAN生成骨架原子距离矩阵之后,采用卷积神经网络,通过自编码器损失从成对距离矩阵中恢复蛋白质骨架坐标。相较于ADMM恢复方法,这种新提出的方案是一种快速、完全可微分的方法,即生成的3D骨架坐标的错误可以反向传播到生成器网络。
图10
图10
Famliy-wide幻想蛋白质结构生成模型架构图
Fig. 10
Famliy-wide hallucination protein structure generation model architecture
图11
图11
生成对抗模型用于蛋白二维接触图和三维骨架的生成
Fig. 11
Generative adversarial network for generation of contact map and 3D backbone structure.
以上提到的GAN方法在结构生成领域表现出了较好的性能,但也存在一定的弊端,例如生成的距离约束不能保证是欧氏有效的,因此不能恢复完全满足生成的约束的3D坐标[94]。2020年Huang等[94]提出了一种构建蛋白质骨架的新方法—Ig-VAE,使用变分自编码器(Variational autoencoder,VAE)直接生成免疫球蛋白的三维坐标。模型的架构如图12所示。首先通过输入蛋白的原子坐标计算出主链残基二面角和距离矩阵,其次将距离矩阵输入编码器压缩特征得到低维的潜在空间表征,潜在空间表征传递给解码器,解码器直接生成蛋白3D空间中的坐标(图12)。通过重构出的坐标重新计算主链残基二面角和距离矩阵,角度和距离矩阵的误差都通过3D坐标反向传播进网络中。训练完成后,Ig-VAE在结构嵌入及重构、隐空间插值以及生成能力方面表现良好,是一种构建单结构域抗体的有效工具。
图12
3.2 扩散模型
现有的蛋白质3D结构生成方法仅限于在高度约束的环境中生成蛋白的拓扑结构[94]。去噪扩散概率模型(Denoising diffusion probabilistic models, DDPMs)是一类从复杂数据分布中采样的生成模型。DDPMs定义了一个正向扩散过程,将数据扰动为噪声,学习反向过程中每一步的噪声为何,再逐步从数据分布中将随机高斯噪声去噪最终产生样本。近年来被训练用来以重建被不同数量的噪声破坏的数据(例如图像或文本)。DDPMs应用于蛋白设计领域则是将加噪后的蛋白质结构多步迭代后还原为真实结构用以训练;使用训练好的模型对输入随机的高斯噪音逐步“去噪”来生成折叠性质完好的蛋白结构,实现蛋白设计或结构生成。
图 13
图 13
蛋白质结构生成扩散模型的原理示意图[100]
Fig. 13
Schematic diagram of diffusion model for protein structure generation
Trippe等[101]开发了ProtDiff(一种蛋白骨架扩散概率模型)以及SMCDiff(一种以模体为条件的骨架生成方法)。ProtDiff模型采用分子 E(3) 等变扩散模型用于蛋白质结构生成 。SMCDiff是一种基于顺序蒙特卡洛的模体-骨架问题解决模型,将无条件训练的扩散概率模型用于条件采样。模体-骨架生成整体框架包含两个步骤,首先训练 ProtDiff 来学习蛋白质骨架上的分布,然后使用 SMCDiff 和 ProtDiff 来修补给定模体。评估结果表明,该框架能够生成多样化的超过20个残基的支架,计算时间在几分钟或更短的数量级。2022年Wu等[102]提出了FoldingDiff,一种使用Transformer作为主干训练的去噪扩散概率模型(图14)。FoldingDiff的训练流程如下图所示。对于蛋白质的3D结构,研究者们使用氨基酸残基间的角度(ψ、ω、φ、θ1、θ2、θ3)来表示,其中三个角为二面角,另外三个角为键角。训练天然蛋白骨架X0开始,通过正向过程向其中迭代添加高斯噪声,直到Xt时刻角度无法辨识。反向过程中,研究者们采用了一个双向的transformer架构,在正向过程中得到的实例上学习反向去噪过程。经过训练得到的扩散模型可以生成高质量的、多样化的、在生物学上合理的蛋白质结构。生成的结构可带有手性,同时表现出高度的可设计性。
图14
除了上述的仅能生成蛋白主链骨架的模型外, DDPMs模型还能够联合生成蛋白质的结构和序列,完成蛋白质的从头设计任务。
ProteinSGM[103]模型可以从头产生真实的蛋白质,并且可以将输入的蛋白骨架和功能位点修复为预定义长度的完整蛋白结构。ProteinSGM将两个残基之间的6D坐标特征作为输入特征,将其转化为2D的蛋白质残基接触矩阵(图15)。扩散模型在2D接触矩阵上逐渐添加噪音并迭代进行学习正向扩散的进程,训练完成的模型再对噪声反向逐步去噪,从噪声中生成真实的残基接触矩阵样本,后转化为蛋白质6D坐标。使用模型的输出残基约束指导Rosetta Design[104]和Relax生成与6D坐标约束相对应的蛋白质结构。因为连续时间扩散模型的采样需要大量正向传播的得分网络来求解反向梯度,而RosettaDesign依赖于昂贵的蒙特卡洛(MCMC)算法来遍历结构势能面找到局部最小值对应的低能量结构,因此模型在高通量设计任务中选择外接结构预测算法(如AlphaFold2等)来减小计算量。
图15
图15
ProteinSGM蛋白编码和模型架构图
Fig. 15
Protein structure encoding and model architecture of ProteinSGM
Ingraham等[105]提出的Chroma模型,能够直接对新的蛋白质结构和序列进行采样,并调节生成过程,使其达到所需的特性和功能,同时实现完整蛋白复合物的3D结构和序列的联合建模且计算效率十分可观。模型可以在不同线索下实现条件采样,而无需重新训练。Chroma 实现了一种可编程蛋白质设计的新模式,这种模式为生成特定和量身定制的蛋白质提供了可行性。
Anand[106] 模型通过定义二级结构和残基接触矩阵约束嵌入到高维空间,再使用IPA模块降维到三维空间中表征蛋白结构。作者使用AlphaFold网络架构中的[38]不变点注意力(Invariant Point Attention, IPA)模块替换transformer中的标准注意力模块保证模型的平移旋转不变性,使用类似于BERT[107]的扩散方法在骨架上生成序列。与其他DDPM模型不同,该模型不使用随机产生的高斯噪声,而是通过随机掩盖部分残基,在[0, 1]中作为t的函数进行线性插值来训练模型;在生成时,模型在t = T时掩蔽所有的残基来进行反向过程,从t = T到t = 0的时间步进行迭代采样。模型还允许人为给定条件信息编码蛋白结构。该模型完全从真实蛋白结构数据中学习,并生成蛋白质拓扑结构的条件约束,以产生全原子骨架构型以及序列和侧链预测。作者用了3个独立训练的模型分别生成蛋白结构、序列和转子,并将模型应用于无序列从头生成、蛋白补全、序列设计、侧链转子重排等任务中,结果表明其具有作为端到端的蛋白质从头设计工具的潜力。
Baker组随后推出基于RoseTTAFold(RF)的扩散模型RFdiffusion[100]。 将扩散模型建模为预训练后微调的RoseTTAFold模型 (图16)。在使用RoseTTAFold进行经典结构预测时,模型的结构输入来自同源模板结构,每个模板结构都有相关的每个残基的"置信度"值。在RFdiffusion中,结构输入来自于部分(去)噪声的结构,置信度特征被重新参数化以表示当前的去噪时间步,模型在该时间步的条件上进行结构预测,然后计算当前输入结构到预测的最终结构的噪声插值,生成去噪的结构并输入到下一个时间步。RFdiffusion有着RF的序列信息通道,类似于前文中提到的RFjoint,能够在扩散生成时逐渐地恢复被遮蔽的序列,通过输入部分遮蔽的序列和完整结构模板来预测未知位置的氨基酸分布,实现部分序列设计。为了生成用于训练或推断的加噪蛋白质结构,作者用N - Cα - C骨架对残基编码并进行正向扩散。对于平移,用3D高斯噪声对残基Cα坐标进行局部扰动;对于旋转,使用等变的SO ( 3 )-transformer [108]在旋转矩阵上模拟布朗运动生成噪声[109],使得模型具有全局的旋转不变性和高维的表征能力。在后续无条件约束策略设计和限制拓扑结构设计两种策略下,RFdiffusion设计了包括蛋白质单体、蛋白质-肽复合物、对称寡聚体、酶和金属结合蛋白等多种类型的蛋白,证明了RFdiffusion的在蛋白设计任务中的有效性和通用性。
图 16
2022年刘海燕组提出的SCUBA-D[110],可以从包含不同类型或数量噪声的原始骨架中生成高质量的骨架。整个模型包含三个主要部分:一个低分辨率去噪模块,用于从初始骨架结构生成先验骨架结构;一个语言模型辅助的结构扩散模块,用于生成高分辨率的输出结构以及一个判别器网络,用于辅助训练去噪扩散模块。在此框架中,初始结构可以是完全随机的也可以带有若干约束,低分辨率去噪模块经过训练可以处理不同类型的初始结构。对不同的初始结构,该模块的目标是生成一个经过优化的粗糙的骨架结构,并保留所有初始结构中包含的拓扑信息。而后语言模型辅助的结构扩散模块获取低分辨率去噪模块的输出先验骨架结构,使用一系列去噪步骤对其进行细化,最终得到高分辨率的输出结构,其中使用氨基酸序列语言模型(ESM1b模型[111])辅助结构扩散过程。为了保证生成结构的高物理可信度,在架构中还使用了两个GAN风格的判别器,在训练中提供额外的损失。而后研究者将结构预测用于在生成骨架上设计的序列,来评估模型生成骨架的质量。结果表明,模型可以始终生成高质量的骨架结构,具有十分广阔的应用前景。
目前,扩散模型在抗体设计中的应用已有报道的工作。2022年Luo等[112]提出了DiffAb模型,该模型基于扩散概率模型以及等变神经网络对抗原抗体互补决定区(complementarity-determining regions)进行联合建模,可以生成针对特定抗原结构的抗体。研究者们同时对蛋白序列、坐标以及每个氨基酸的方向都进行了建模,使得模型可以实现原子分辨率级别的抗体设计且对旋转和平移等变。模型训练完成后,研究者将模型应用于序列结构协同设计、基于主链的抗体序列设计以及抗体优化任务中,结果表明模型在三个任务上均有出色的表现。
基于自注意力架构的蛋白质结构预测模型能够很好的捕获序列和结构之间的关系并高度准确的预测蛋白3D结构,但在生成能力上较弱;而基于序列空间反向传播迭代的蛋白幻想(hallucination)模型的性能高度依赖于输入的序列条件和生成标准。扩散模型使用的基于结构预测模型的3D噪音迭代方法,能够通过外部条件保留特定功能片段进行设计,也能在更广阔的序列和结构空间中进行探索,同时保证生成蛋白的合理性与多样性。
3.3 蛋白质序列生成
在蛋白质巨大的序列空间中,想要得到特定的序列以匹配到已知三维结构中执行特定的生物功能,无疑是一个巨大的挑战。近年来发展的人工智能方法不依赖于盲目搜索,而是基于推理的过程,直接从训练样本中学习序列与结构功能的关系,充分探索蛋白质序列空间,得到新颖的蛋白质序列。以下将简要介绍近年来发表的蛋白质序列的生成模型。
蛋白质序列生成模型的发展主要受到自然语言处理领域出色模型的启发。Repecka等[113]提出了一种基于生成对抗网络的蛋白质序列生成模型—ProteinGAN(图17).ProteinGAN模型使用生成对抗网络架构,训练数据为苹果脱氢酶家族的16706个蛋白序列。模型输入长为128的随机向量(均值为0,方差为0.5),由生成器生成蛋白质序列并将其呈递给判别器。在与自然蛋白质序列比较后,判别器对得到的序列进行打分,判断其为自然序列或是生成序列。生成器学习生成与自然序列近似的氨基酸序列用以欺骗判别器。经过2.5M步训练之后,98%的生成序列包含苹果脱氢酶的全部主要结构域,同时序列聚类中的不同氨基酸序列之间相似度不超过10%,这表明模型已极大程度上探索了苹果脱氢酶家族的序列空间。
图17
随着transformer模型[60]在自然语言处理领域大放异彩,越来越多的研究者将transformer架构应用到蛋白质序列生成领域,由此产生了许多基于transformer的序列生成模型。2020年Madami等人提出了ProGen模型[114]。ProGen是一种条件transformer语言模型。该模型使用带有一系列蛋白性质标签的氨基酸序列进行训练,实现可控生成。ProGen生成的蛋白质在能量上与天然蛋白质相近,具有理想的生物功能。由 Elnaggar等[115]提出的ProtTrans模型,使用四种不同的语言模型(两种自回归语言模型Tranformer-XL, XLNet以及两种自编码模型Bert, Albert)在蛋白质数据集上进行预训练,从序列中学习提取有用的特征,而后引入下游监督任务,以实现单个残基和单个蛋白性质的预测。这些模型原则上具有序列生成能力。2021年Gligorijević等[116]提出了一种序列去噪自编码器,该模型与一个功能预测器相结合,可以从大量未标记的蛋白质数据中学习蛋白质序列的多样性,而功能预测器可对序列采样的方向进行指导。在测试阶段,研究者进一步探究了模型在设计带有金属结合位点的序列以及重新设计功能增强的角质酶的能力。
2022年Moffat等[117]提出了DARK架构,用于在不断迭代扩展的合成蛋白质序列上有效地训练生成模型,该模型使用了标准的transformer 解码器架构,可生成具有不同有序结构的新序列。随后,Ferruz等人提出了ProtGPT2模型[118],该模型是一个自回归transformer模型,拥有7.38亿参数。模型的训练在Uniref-50数据集上进行。训练完成后生成的序列显示出与自然序列相似的预测稳定性与动态特性,同时在进化上与当前的蛋白质序列空间相距甚远。Hesslow等[119]提出RITA模型是一个拥有12亿的参数的自回归生成模型。该模型在UniRef-100数据集超过2.8亿个蛋白质序列上进行训练。研究者们探究了模型大小对自回归模型性能的影响,结果表明随着模型规模的增大,模型的表现有了显著的提升。而后Nijkamp等[118]提出的ProGen2自回归transformer模型具有更大的规模,模型参数最多可达64亿,模型的训练在从基因组、宏基因组和免疫库数据库中提取的超过 10 亿种蛋白质的不同序列组成的数据集上进行。为了评估ProGen2生成序列的能力,研究者选择在以下三种情境对模型进行评估,即预训练后一般序列的生成、微调后的可以折叠成特殊结构的序列生成,以及在抗体序列数据集上进行预训练后的抗体序列生成。结果表明,截至ProGen2模型的提出,ProGen2在生成合理序列方面的表现为当前最佳。
4 总结与展望
在过去的数年中,人工智能技术在蛋白质设计上取得了巨大的成功。先进的人工智能模型凭借其强大的特征提取、数据统计和函数拟合能力,从现有蛋白质结构和序列数据中学习基本的特征和相互作用关系,拟合出具有泛化能力函数模型,以应用于各类蛋白设计任务中。部分深度学习蛋白设计模型设计的蛋白已经被实验验证具有所需的结构和功能。
深度学习模型的性能高度依赖于标注准确的多样性数据。蛋白结构数据库需要从昂贵的生物实验结果中收录蛋白质功能和性质相关的数据。通常,这些不断积累的数据需要加以筛选和整理后才能作为深度学习模型的训练集和测试集。为保证深度学习神经网络能够充分捕获输入蛋白质结构和序列中的一般性质和潜在的依赖关系,一个具备合理性和可及性的蛋白质特征表示方式颇为重要。从最简单直接的独热编码、二级结构类型和组成原子在三维空间中的位置坐标,到高维空间中的嵌入图,再到依据邻近氨基酸残基的环境表示方式,为同时兼顾关键部位的贡献和全局构象的完整表征,研究人员提出了多种蛋白质结构和序列的特征提取和编码表示方法。对特定的蛋白质设计任务,如何选择合适的蛋白序列结构表征方式和人工智能模型,是研究者面临的最主要问题。
目前,深度学习模型在蛋白质设计任务上的普及和应用依然存在着诸多问题和挑战。其一,和海量的蛋白序列相比,蛋白结构数据库中收录数据的规模远远不足。在数据缺乏的情况下,构思再精妙的模型也难以展现其高准确和强泛化能力。另外,在深度学习模型的训练数据中进行合理的数据增强或运用掩蔽策略进行训练也会对模型的性能有所提升。
其二,目前对于蛋白设计模型的性能评估大多为天然序列恢复率和预测结构与原结构之间的差异,然而这两个指标仅能够衡量设计序列或结构与原蛋白的全局相似程度,并不能很好量化设计蛋白的物理化学性质。Dauparas[73]在ProteinMPNN文章中也指出天然序列恢复率对结构分辨率敏感,并且与局部残基距离误差相关性不高(Rpearson~0.5),并不是一个能够很好评价蛋白序列预测模型性能的指标。单个关键残基预测的错误对整体天然序列恢复率影响不大,但对序列折叠能力是毁灭性的。未来的方向可能是引入更多的评价指标,局部指标包括二级结构恢复率、溶剂可及表面、设计序列中无序残基比例等[120]。设计结构的全局评估可以使用结构预测模型折叠的结构并计算与目标结构的差异;长时间分子动力学模拟能够衡量序列折叠后结构的稳定性、展现结合蛋白与靶点之间的相互作用构象。将深度学习方法与传统的基于能量函数的蛋白质设计方法联用或前后相接,将深度学习模型生成的大量候选序列或结构输入基于物理化学的能量函数模型中进行验证和筛选,挑选出最优序列进行实验验证。充分发挥深度学习模型的高通量序列生成能力和物理化学模型对于蛋白的可表达性、可溶性以及聚集效应等物理化学性质的把握能力。
其三,蛋白质生理功能的实现大多是一个动态的过程,并且酶的活性位点具有一定的柔性。目前蛋白设计模型着重于对单一蛋白质功能构象结构的模仿或满足,力求设计蛋白的可折叠性、可溶性和稳定性,然而在功能位点和结合界面缺乏足够的关注。因此设计蛋白质的结合和变构现象,依然是当前研究中的难点。
最后,绝大多数模型难以同时考虑设计蛋白的性质(可表达性、可溶性、稳定性、免疫原性等),只是拟合了天然蛋白从结构到序列的映射关系。从头设计具有强活性但低免疫原性和毒性的蛋白质药物,并佐以大量的生物实验结果,是人工智能蛋白质设计方法展现自己广阔应用前景的最有力方式。
传统蛋白质设计方法中使用的人工推导的能量函数能够遍历势能面,指导着蛋白序列结构生成优化的方向,并且具备生物物理和生物化学上的可解释性。深度神经网络学习到的能量函数比传统的更精确,但其神经网络模型内部的特征表示和数据传输可能缺乏一定的可解释性。希望未来的探索能够逐步打开深度学习模型内部的“黑盒子”,在模型输出结果的精确性和计算过程的可解释上有所改善。
近年在深度学习的赋能下,蛋白质设计的成功率和合理性得到了大幅提高。未来人工智能技术将更多地应用于抗体、酶、多肽药物等各类功能蛋白的设计中。可以预见的是,按需设计功能蛋白质的时代即将到来。
参考文献
The coming of age of de novo protein design
[J]. ,
Automated design of efficient and functionally diverse enzyme repertoires
[J]. ,
Computational design of a modular protein sense-response system
[J]. ,
Principles that govern the folding of protein chains
[J]. ,
Scientific benchmarks for guiding macromolecular energy function improvement
[J]. ,
Macromolecular modeling and design in Rosetta: Recent methods and frameworks
[J]. ,
Chapter one-DNA-binding specificity prediction with FoldX
[M]//.
EvoEF2: accurate and fast energy function for computational protein design
[J]. ,
The Rosetta all-atom energy function for macromolecular modeling and design
[J]. ,
Design of a novel globular protein fold with atomic-level accuracy
[J]. ,
Computational design of an enzyme catalyst for a stereoselective bimolecular Diels-Alder reaction
[J]. ,
De novo design of potent and selective mimics of IL-2 and IL-15
[J]. ,
Topological control of cytokine receptor signaling induces differential effects in hematopoiesis
[J]. ,
Massively parallel de novo protein design for targeted therapeutics
[J]. ,
De novo design of picomolar SARS-CoV-2 miniprotein inhibitors
[J]. ,
De novo design of bioactive protein switches
[J]. ,
Structural resolution of switchable states of a de novo peptide assembly
[J]. ,
De novo design of self-assembling helical protein filaments
[J]. ,
Design of a hyperstable 60-subunit protein icosahedron
[J]. ,
Global analysis of protein folding using massively parallel design, synthesis, and testing
[J]. ,
The protein data bank
[J]. ,
SCOPe: Structural Classification of Proteins—Extended, integrating SCOP and ASTRAL data and classification of new structures
[J]. ,
UniProt: the universal protein knowledgebase
[J]. ,
Pfam: the protein families database in 2021
[J]. ,
AK-score: Accurate protein-ligand binding affinity prediction using an ensemble of 3D-convolutional neural networks
[J]. ,
InteractionGraphNet: a novel and efficient deep graph representation learning framework for accurate protein-ligand interaction predictions
[J]. ,
Improved protein-ligand binding affinity prediction with structure-based deep fusion inference
[J]. ,
KDEEP: Protein-ligand absolute binding affinity prediction via 3D-convolutional neural networks
[J]. ,
D-SCRIPT translates genome to phenome with sequence-based, structure-aware, genome-scale predictions of protein-protein interactions
[J]. ,
Struct2Graph: a graph attention network for structure based predictions of protein-protein interactions
[J]. ,
RGN: Residue-based graph attention and convolutional network for protein-protein interaction site prediction
[J]. ,
Out-of-the-box deep learning prediction of pharmaceutical properties by broadly learned knowledge-based molecular representations
[J]. ,
Automated de novo molecular design by hybrid machine intelligence and rule-driven chemical synthesis
[J]. ,
MolGAN: An implicit generative model for small molecular graphs
[EB/OL]. ,
Efficient multi-objective molecular optimization in a continuous latent space
[J]. ,
Protein design via deep learning
[J]. ,
Highly accurate protein structure prediction with AlphaFold
[J]. ,
Accurate prediction of protein structures and interactions using a three-track neural network
[J]. ,
De novo protein design: fully automated sequence selection
[J]. ,
Direct prediction of profiles of sequences compatible with a protein structure by neural networks with fragment-based local and energy-based nonlocal profiles
[J]. ,
Improving computational protein design by using structure-derived sequence profile
[J]. ,
Ab initio folding of terminal segments with secondary structures reveals the fine difference between two closely related all-atom statistical energy functions
[J]. ,
Computational protein design with deep learning neural networks
[J]. ,
SPIN2: Predicting sequence profiles from protein structures using deep neural networks
[J]. ,
To improve protein sequence profile prediction through image captioning on pairwise residue distance map
[J]. ,
ImageNet classification with deep convolutional neural networks
[J]. ,
ProDCoNN: Protein design using a convolutional neural network
[J]. ,
Protein sequence design with a learned potential
[J]. ,
DenseCPD: Improving the accuracy of neural-network-based computational protein sequence design with DenseNet
[J]. ,
Densely connected convolutional networks
[C]//
Discovery of novel gain-of-function mutations guided by structure-based deep learning
[J]. ,
Machine learning-aided engineering of hydrolases for PET depolymerization
[J]. ,
Protein sequence design by conformational landscape optimization
[J]. ,
Improved protein structure prediction using predicted interresidue orientations
[J]. ,
Protein docking model evaluation by graph neural networks
[J]. ,
Semi-supervised classification with graph convolutional networks
[EB/OL]. ,
Generative models for graph-based protein design
[C/OL].
Attention is all You need
[C]//
Fast and flexible protein design using deep graph neural networks
[J]. ,
Learning from protein structure with geometric vector perceptrons
[EB/OL]. ,
Protein sequence sampling and prediction from structural data
[EB/OL]. ,
Neural network-derived Potts models for structure-based protein design using backbone atomic coordinates and tertiary motifs
[J]. ,
Tertiary structural propensities reveal fundamental sequence/structure relationships
[J]. ,
Learning inverse folding from millions of predicted structures
[C/OL]//
A Deep SE(3)-Equivariant Model for Learning Inverse Protein Folding
[EB/OL]. ,
Tensor fusion network for multimodal sentiment analysis
[EB/OL]. ,
Increasing the efficiency and accuracy of the ABACUS protein sequence design method
[J]. ,
Rotamer-free protein sequence design based on deep learning and self-consistency
[J]. ,
Protein design with a comprehensive statistical energy function and boosted by experimental selection for foldability
[J]. ,
State-of-the-art estimation of protein model accuracy using AlphaFold
[J]. ,
Robust deep learning-based protein sequence design using ProteinMPNN
[J]. ,
Accurate and efficient protein sequence design through learning concise local environment of residues
[J]. ,
Structure-informed language models are protein designers
[EB/OL]. ,
Generative models for graph-based protein design
[C].
ProDesign: Toward effective and efficient protein design
[EB/OL]. ,
Generative De Novo Protein Design with Global Context
[EB/OL]. ,
AlphaDesign: a graph protein design method and benchmark on AlphaFoldDB
[EB/OL]. ,
De novo protein design by deep network hallucination
[J]. ,
Design of proteins presenting discontinuous functional sites using deep learning
[EB/OL]. ,
Scaffolding protein functional sites using deep learning
[J]. ,
AutoFoldFinder: an automated adaptive optimization toolkit for de novo protein fold design
[EB/OL]. 2021[
De novo design of luciferases using deep learning
[J]. ,
De novo design of a fluorescence-activating β-barrel
[J]. ,
Design of protein-binding proteins from the target structure alone
[J]. ,
A backbone-centred energy function of neural networks for protein design
[J]. ,
De novo protein design by an energy function based on series expansion in distance and orientation dependence
[J]. ,
Fast and accurate prediction of protein side-chain conformations
[J]. ,
Protein side chain modeling with orientation-dependent atomic force fields derived by series expansions
[J]. ,
LEAP: highly accurate prediction of protein loop conformations by integrating coarse-grained sampling and optimized energy scores with all-atom refinement of backbone and side chains
[J]. ,
Generative Modeling for Protein Structures
[C/OL].
Fully differentiable full-atom protein backbone generation
[EB/OL]. ,
Ig-VAE: Generative modeling of protein structure by direct 3D coordinate generation
[J]. ,
End-to-End deep structure generative model for protein design
[EB/OL]. ,
Generating tertiary protein structures via interpretable graph variational autoencoders
[J]. ,
Deep sharpening of topological features for de novo protein design
[EB/OL]. ,
Denoising diffusion probabilistic models
[EB/OL]. ,
Deep unsupervised learning using nonequilibrium thermodynamics
[C]//
Broadly applicable and accurate protein design by integrating structure prediction networks and diffusion generative models
[EB/OL]. ,
Diffusion probabilistic modeling of protein backbones in 3D for the motif-scaffolding problem
[EB/OL]. ,
Protein structure generation via folding diffusion
[EB/OL]. ,
ProteinSGM: Score-based generative modeling for de novo protein design
[EB/OL]. 2022[
ROSETTA3: an object-oriented software suite for the simulation and design of macromolecules
[J]. ,
Illuminating protein space with a programmable generative model
[EB/OL]. ,
Protein structure and sequence generation with equivariant denoising diffusion probabilistic models
[EB/OL]. ,
BERT: Pre-training of deep bidirectional transformers for language understanding
[EB/OL]. ,
Riemannian score-based generative modelling
[EB/OL]. ,
Denoising diffusion probabilistic models on SO(3) for rotational alignment
[EB/OL]. ,
De novo protein backbone generation based on diffusion with structured priors and adversarial training
[EB/OL]. ,
Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences
[J]. ,
Antigen-specific antibody design and optimization with diffusion-based generative models for protein structures
[EB/OL]. ,
Expanding functional protein sequence spaces using generative adversarial networks
[J]. ,
ProGen: Language modeling for protein generation
[EB/OL]. ,
ProtTrans: towards cracking the language of lifes code through self-supervised deep learning and high performance computing
[J]. ,
Function-guided protein design by deep manifold sampling
[EB/OL]. ,
Design in the DARK: Learning deep generative models for de novo protein design
[EB/OL]. ,
ProGen2: exploring the boundaries of protein language models
[EB/OL]. ,
RITA: a study on scaling up generative protein sequence models
[EB/OL]. ,
Energy functions in de novo protein design: current challenges and future prospects
[J]. ,
/
〈 | 〉 |