“可折叠性”在酶智能设计改造中的应用研究—以AlphaFold2为例
孟巧珍, 郭菲

Application of "foldability" in the intelligent of enzymes engineering and design: take AlphaFold2 for example
Qiaozhen MENG, Fei GUO
表1 蛋白质设计工具汇总
Table 1 Summary of protein design tools
方法名称/作者类型模型框架输入输出训练集应用特点网页/GitHub
SCUBA[32]骨架设计NC-NN二级结构motifs骨架PDB两层α/β蛋白;四螺旋束蛋白;EXTD突破之前方法仅限于已有模式的限制,基于核密度估计构造神经网络形式的能量函数https://doi.org/10.5281/zenodo.4533424
Namrata Anand[33-34]骨架设计DCGAN-距离图distance maps补齐完整的结构Cα原子之间的相对距离作为约束并优化-
Mire Zloh[35]序列生成LSTM-序列CAMP+DBAASP+DRAMP+YADAMP-设计对大肠杆菌具有潜在抗菌活性的短肽,并通过结构和表面性能与典型的AMP结构进行比较-
Gisbert Schneider[36]序列生成RNN-序列ADAM/APD/DADP设计具有抗菌功能的肽设计出的肽相比随机生成的肽具有抗菌活性的较高https://github.com/alexarnimueller/LSTM_peptides
ProteinGAN[37]序列生成GAN-序列MDH 序列MDH酶设计与苹果酸脱氢酶同样功能的酶,可同时出现100多个位点https://github.com/Biomatter-Designs/ProteinGAN
Mostafa Karimi[38]序列生成,给定折叠方式gcWGAN-序列SCOPe v. 2.07-设计了一个从序列到折叠的预测器作为“oracle”,监督序列折叠成给定的折叠类型https://github.com/Shen-Lab/gcWGAN
ProteinMPNN[39]序列设计,结构约束结构编码-序列解码的自回归模型3D结构序列CATH 4.2单体、环状低聚物、蛋白质纳米颗粒从结构中学习残基类型,将原子配对距离势融入到边的特征表示中,使序列恢复率直接提高约7.8%https://github.com/dauparas/ProteinMPNN
ABACUS-R[40]序列设计,结构约束结构编码-序列解码3D结构序列CATH 4.2PDB ID: 1r26, 1cy5 and 1ubq 3个骨架结构从结构中学习残基类型,多任务学习https://github.com/liuyf020419/ABACUS-R
Transformer
David T. Jones[41]序列设计,结构约束贪婪的半随机游走,逐步突变起始序列进行迭代的端到端设计序列序列-Top7;Peak6; Foldit1; Ferredog-Diesel利用AlphaFold2预测生成序列的结构以及pLDDT打分,判断突变位点以及用距离图约束结构符合给定结构;对于最初始的序列,通过生成模型以及AlphaFold2结构约束产生初始序列
AlphaDesign[42]序列设计,结构约束基于进化的遗传算法迭代生成序列随机序列序列-设计稳定的单体,二聚体直到六聚体利用AlphaFold2预测的结构与要设计的骨架结构的差异来调整序列的优化-
trDesign[43]序列设计,结构约束trRosetta随机序列序列--二维距离直方图的损失来更新梯度,更新被表示为PSSM的序列,可以理解为“折叠”的逆问题https://github.com/gjoni/trDesign
Hallucination[44]序列设计,结构约束,不固定骨架结构trRosetta随机序列序列/结构PDB训练背景分布概率设计2000条新的幻觉序列,聚类后129条表达后,62个蛋白可溶,高稳定随机出发设计一条序列,通过最大化与随机背景序列的结构差异,约束该序列具有一个典型的2维结构特性https://github.com/gjoni/trDesign
Constrained hallucination2[45]序列设计,结构约束RoseTTAFold序列/结构序列/结构RoseTTAFold训练集免疫原;金属结合;新酶;特定结合的蛋白设计具有给定motif的序列,通过神经网络不断迭代推理以及反向传播来设计序列https://github.com/RosettaCommons/RFDesign
RFjoint[45]序列设计,结构约束训练RoseTTAFold序列/结构序列/结构微调,其中25%: PDB (2020-02-17);75%:AF2 预测结构添加同时恢复序列和结构信息的损失,直接训练全新的模型
PiFold[46]序列设计GNN3D结构序列CATH序列恢复率:51.66%( CATH4.2),58.72%( TS50),60.42%( TS500)设计了新的残基特征器,PiGNN层学习多尺度(节点,边,全局)的残基相互作用信息https://github.com/A4Bio/PiFold
ProDESIGN-LE[47]序列设计Transformer+MLP3D结构序列PDB40设计CAT III酶新序列,3/5可表达且可溶;GFP通过Transformer学习当前残基在局部结构环境中的依赖性,使设计序列中的残基类型适配于当前的局部环境http://81.70.37.223/; https://github.com/bigict/ProDESIGN-LE