SCUBA[32] | 骨架设计 | NC-NN | 二级结构motifs | 骨架 | PDB | 两层α/β蛋白;四螺旋束蛋白;EXTD | 突破之前方法仅限于已有模式的限制,基于核密度估计构造神经网络形式的能量函数 | https://doi.org/10.5281/zenodo.4533424 |
Namrata Anand[33-34] | 骨架设计 | DCGAN | - | 距离图 | distance maps | 补齐完整的结构 | Cα原子之间的相对距离作为约束并优化 | - |
Mire Zloh[35] | 序列生成 | LSTM | - | 序列 | CAMP+DBAASP+DRAMP+YADAMP | - | 设计对大肠杆菌具有潜在抗菌活性的短肽,并通过结构和表面性能与典型的AMP结构进行比较 | - |
Gisbert Schneider[36] | 序列生成 | RNN | - | 序列 | ADAM/APD/DADP | 设计具有抗菌功能的肽 | 设计出的肽相比随机生成的肽具有抗菌活性的较高 | https://github.com/alexarnimueller/LSTM_peptides |
ProteinGAN[37] | 序列生成 | GAN | - | 序列 | MDH 序列 | MDH酶 | 设计与苹果酸脱氢酶同样功能的酶,可同时出现100多个位点 | https://github.com/Biomatter-Designs/ProteinGAN |
Mostafa Karimi[38] | 序列生成,给定折叠方式 | gcWGAN | - | 序列 | SCOPe v. 2.07 | - | 设计了一个从序列到折叠的预测器作为“oracle”,监督序列折叠成给定的折叠类型 | https://github.com/Shen-Lab/gcWGAN |
ProteinMPNN[39] | 序列设计,结构约束 | 结构编码-序列解码的自回归模型 | 3D结构 | 序列 | CATH 4.2 | 单体、环状低聚物、蛋白质纳米颗粒 | 从结构中学习残基类型,将原子配对距离势融入到边的特征表示中,使序列恢复率直接提高约7.8% | https://github.com/dauparas/ProteinMPNN |
ABACUS-R[40] | 序列设计,结构约束 | 结构编码-序列解码 | 3D结构 | 序列 | CATH 4.2 | PDB ID: 1r26, 1cy5 and 1ubq 3个骨架结构 | 从结构中学习残基类型,多任务学习 | https://github.com/liuyf020419/ABACUS-R |
Transformer |
David T. Jones[41] | 序列设计,结构约束 | 贪婪的半随机游走,逐步突变起始序列进行迭代的端到端设计 | 序列 | 序列 | - | Top7;Peak6; Foldit1; Ferredog-Diesel | 利用AlphaFold2预测生成序列的结构以及pLDDT打分,判断突变位点以及用距离图约束结构符合给定结构;对于最初始的序列,通过生成模型以及AlphaFold2结构约束产生初始序列 | |
AlphaDesign[42] | 序列设计,结构约束 | 基于进化的遗传算法迭代生成序列 | 随机序列 | 序列 | - | 设计稳定的单体,二聚体直到六聚体 | 利用AlphaFold2预测的结构与要设计的骨架结构的差异来调整序列的优化 | - |
trDesign[43] | 序列设计,结构约束 | trRosetta | 随机序列 | 序列 | - | - | 二维距离直方图的损失来更新梯度,更新被表示为PSSM的序列,可以理解为“折叠”的逆问题 | https://github.com/gjoni/trDesign |
Hallucination[44] | 序列设计,结构约束,不固定骨架结构 | trRosetta | 随机序列 | 序列/结构 | PDB训练背景分布概率 | 设计2000条新的幻觉序列,聚类后129条表达后,62个蛋白可溶,高稳定 | 随机出发设计一条序列,通过最大化与随机背景序列的结构差异,约束该序列具有一个典型的2维结构特性 | https://github.com/gjoni/trDesign |
Constrained hallucination2[45] | 序列设计,结构约束 | RoseTTAFold | 序列/结构 | 序列/结构 | RoseTTAFold训练集 | 免疫原;金属结合;新酶;特定结合的蛋白 | 设计具有给定motif的序列,通过神经网络不断迭代推理以及反向传播来设计序列 | https://github.com/RosettaCommons/RFDesign |
RFjoint[45] | 序列设计,结构约束 | 训练RoseTTAFold | 序列/结构 | 序列/结构 | 微调,其中25%: PDB (2020-02-17);75%:AF2 预测结构 | 添加同时恢复序列和结构信息的损失,直接训练全新的模型 |
PiFold[46] | 序列设计 | GNN | 3D结构 | 序列 | CATH | 序列恢复率:51.66%( CATH4.2),58.72%( TS50),60.42%( TS500) | 设计了新的残基特征器,PiGNN层学习多尺度(节点,边,全局)的残基相互作用信息 | https://github.com/A4Bio/PiFold |
ProDESIGN-LE[47] | 序列设计 | Transformer+MLP | 3D结构 | 序列 | PDB40 | 设计CAT III酶新序列,3/5可表达且可溶;GFP | 通过Transformer学习当前残基在局部结构环境中的依赖性,使设计序列中的残基类型适配于当前的局部环境 | http://81.70.37.223/; https://github.com/bigict/ProDESIGN-LE |