Please wait a minute...
IMAGE/TABLE DETAILS
Halogenases in Biocatalysis: Advances in Mechanism Elucidation, Directed Evolution, and Green Manufacturing
WANG Mingpeng, CHEN Lei, ZHAO Yiran, ZHANG Yimin, ZHENG Qifan, LIU Xinyang, WANG Yixue, WANG Qinhong
Synthetic Biology Journal    DOI: 10.12211/2096-8280.2024-091

对比维度传统模型(如DeepEC/BLASTp)CLEAN
学习范式多标签分类(直接映射EC编号)或序列比对对比学习构建功能嵌入空间(正、负样本对,损失函数)
功能相似性建模依赖序列相似性(BLASTp)或标签概率(DeepEC)通过欧氏距离直接量化功能关联性
数据依赖性需大量标注数据,对稀有类别泛化能力差弱化标签依赖,利用功能相似性推断稀疏类别表征
处理混杂酶的能力多标签分类易产生矛盾预测嵌入空间支持同一序列靠近多个功能簇
功能层级关系捕捉需人工设计规则(如EC层级约束)嵌入空间自然体现EC编号层级(主类→亚类)
预训练策略无或基于浅层特征(如k-mer频率)自监督预训练(掩码语言建模)+ EC层级知识注入
Table 2 The uniqueness and superiority of the CLEAN algorithm framework
Extracts from the Article
随着DNA测序技术的发展,特别是基因组学和宏基因组学工具的发展,人们发现了大量的蛋白质序列。然而,目前科学家只对蛋白质序列总量的0.3% (约50万)进行过研究,其中有明确实验证据支持的序列占比不足20%(<19.4%)[48-50]。另一方面,蛋白质功能注释高度依赖于计算模型的运行方式。一项大规模的蛋白质功能注释关键评估(CAFA)研究发现,使用现有计算工具自动注释的酶中有40%是不正确的[50]。因此,从有限的实验数据基础上对未知或未表征酶进行准确功能注释预测,对于蛋白质序列数据分析处理和应用至关重要。为了突破已有方法的局限性(表2),赵惠民团队开发了一种基于对比学习的机器学习模型CLEAN(Contrastive Learning-enabled Enzyme ANnotation)[51]。在CLEAN的任务中,具有相同酶分类编号(EC,Enzyme commission,指示酶催化何种反应的ID代码)的氨基酸序列具有较小的欧氏距离,反映了功能相似性。CLEAN基于UniProt的高质量数据库进行训练,输入氨基酸序列,随后计算对比输入样本间的欧式距离,就可得到EC可能性排序列表。为了验证CLEAN的准确性和稳健性,针对UniProt数据库中样本有限,研究不足的卤化酶数据集,使用CLEAN及其他六种最先进的注释工具(ProteInfer、BLASTp、DeepEC、DEEPre、COFACTOR和ECPred)对36种未完全注释的卤化酶的EC编号进行重新分配,结合实验验证结果,综合表明CLEAN(预测精度86.7至100%)在酶功能预测任务中比其他工具(例如,DeepEC中约11.1%,ProteInfer中11.1至61.1%)更具优越性。此外,所有预测工具中只有CLEAN成功将原本功能注释不准确甚至相互矛盾的卤化酶MJ1651(EC 3.13.1.8)和TTHA0338(EC 3.13.1.8)精准区分,并准确识别SsFlA多功能酶具备三种催化能力(EC 2.5.1.63, EC 2.5.1.94和EC 3.13.1.8)。结果表明,CLEAN能够高效处理低相似性序列、数据不平衡及混杂酶等复杂数据集,预测准确率显著提升并兼具抗噪性和纠错能力,为酶功能注释提供高精度、强鲁棒的计算工具。此外,该项工作证实了机器学习等AI技术在卤化酶识别、分类、鉴定方面的高效性和准确性,具有巨大应用潜力。
Kulik及其研究小组的计算工作详细描述了底物进入SyrB2活性位点所需的蛋白质间相互作用[79]。当苏氨酸被非天然氨基酸底物(如α-氨基丁酸或正缬氨酸)替代时,SyrB2主要催化羟化反应。这些研究表明,SyrB2与苏氨酸及其他氨基酸底物的相互作用对卤化/羟化反应的结果具有重要影响。尽管对SyrB2中的底物-蛋白相互作用进行了研究,但尚不清楚Fe中心SCS,即与Fe中心各配体相互作用的氨基酸残基)如何影响SyrB2和其他卤化酶的催化结果。Wilson等[68]通过生信分析发现,与SyrB2同源性较高的卤化酶中121位氨基酸残基为高度保守的苯丙氨酸,而羟化酶中则多为氧化还原性质活泼的酪氨酸。随后,将SyrB2催化中心SCS中的苯丙氨酸替换为酪氨酸(F121Y和F104Y),作为监测活性中心Cl-Fe配位方式的空间约束探针。通过分子动力学模拟以及实验证明,仅有F121Y突变体的酪氨酸在催化过程中与Fe(IV)=O反应形成DOPA,并导致SyrB2卤化功能丧失,而F104Y则没有。根据两突变体SCS中酪氨酸残基与Fe(IV)=O各配体之间的距离计算结果,确认了SyrB2卤化过程中Fe(IV)=O唯一的活性构象,即轴向Fe(IV)-Cl。
红线表示对氟化活性至关重要的残基;黄线表示能与腺嘌呤C2′位点修饰基团形成氢键的残基
近期,唐奕课题组从Penicillium oxalicum中鉴定并表征了自由基卤化酶家族中的首个铜依赖型成员ApnU[81].该酶的活性中心采用Cu2?取代传统的Fe2?辅因子,通过独特的金属配位结构和自由基介导机制实现C(sp3)-H的迭代卤化(图12).在结构特征方面,ApnU含有两个HXXHC保守基序,形成一个由四个组氨酸侧链构成的平面位点(尺寸约5.4 ? × 6.1 ?)及两个半胱氨酸组成的铜结合位点,与NHFeHal的活性中心结构呈显著差异.功能研究表明,ApnU严格依赖Cu2?、O?以及抗坏血酸作为辅因子,能够催化天然底物atpenin B(1)在C5′位C(sp3 )-H进行氯化反应,生成单氯(2)、二氯(3)和三氯产物(4),同时通过氢原子抽取机制产生脱氢副产物(5).实验数据显示,ApnU的催化活性受NaCl浓度显著影响:当NaCl浓度为50 mM时氯化效率达到峰值,而在NaCl缺失条件下反应转向脱氢途径,这表明卤素配位在C-H键活化中起关键作用.与NHFeHal相比,ApnU表现出显著抑制羟基回弹副反应的能力,从而提升了卤代选择性,这一机制差异可能与金属中心的氧化还原特性相关.此外,ApnU展现出独特的广谱卤素兼容性,不仅能催化Cl?,还能利用Br?、I?、SCN?及SeCN?对天然底物(包括非天然底物DIF-3)进行C(sp3)-H官能化修饰,生成相应的单卤取代产物.基于软硬酸碱理论,Cu2?活性中心的较软特性使其能够高效结合较软的配体(如硫和碘),这一特性赋予ApnU催化C(sp3)-H碘化、硫氰化和硒氰化的独特能力,突破了NHFeHals仅能催化硬性卤素(Cl?/Br?)的限制,实现了C(sp3)-H的多样化修饰及软性卤素的高效利用.ApnU的发现不仅深化了对卤化酶金属依赖性的理解,更为复杂天然产物及药物中间体的生物合成提供了一种新型工具酶. ...
Regioselective halogenation of lavanducyanin by a site-selective vanadium-dependent chloroperoxidase
1
2024
... 此外,非血红素铁/α-酮戊二酸依赖型卤化酶家族也增添了新成员AdeV和CtNTH,分别催化2'-脱氧腺苷-5'-单磷酸(dAMP)和2'-脱氧鸟苷-5'-单磷酸(dGMP)的氯化[45-46].这些核苷酸卤化酶的发现扩大了卤化酶家族可催化底物的范围.Baumgartner和McKinnie报道第一个以吩嗪酮为底物的新型卤化酶LvcH,属于VHPO家族[47]. ...
UniProt: the universal protein knowledgebase in 2021
1
2021
... 随着DNA测序技术的发展,特别是基因组学和宏基因组学工具的发展,人们发现了大量的蛋白质序列.然而,目前科学家只对蛋白质序列总量的0.3% (约50万)进行过研究,其中有明确实验证据支持的序列占比不足20%(<19.4%)[48-50].另一方面,蛋白质功能注释高度依赖于计算模型的运行方式.一项大规模的蛋白质功能注释关键评估(CAFA)研究发现,使用现有计算工具自动注释的酶中有40%是不正确的[50].因此,从有限的实验数据基础上对未知或未表征酶进行准确功能注释预测,对于蛋白质序列数据分析处理和应用至关重要.为了突破已有方法的局限性(表2),赵惠民团队开发了一种基于对比学习的机器学习模型CLEAN(Contrastive Learning-enabled Enzyme ANnotation)[51].在CLEAN的任务中,具有相同酶分类编号(EC,Enzyme commission,指示酶催化何种反应的ID代码)的氨基酸序列具有较小的欧氏距离,反映了功能相似性.CLEAN基于UniProt的高质量数据库进行训练,输入氨基酸序列,随后计算对比输入样本间的欧式距离,就可得到EC可能性排序列表.为了验证CLEAN的准确性和稳健性,针对UniProt数据库中样本有限,研究不足的卤化酶数据集,使用CLEAN及其他六种最先进的注释工具(ProteInfer、BLASTp、DeepEC、DEEPre、COFACTOR和ECPred)对36种未完全注释的卤化酶的EC编号进行重新分配,结合实验验证结果,综合表明CLEAN(预测精度86.7至100%)在酶功能预测任务中比其他工具(例如,DeepEC中约11.1%,ProteInfer中11.1至61.1%)更具优越性.此外,所有预测工具中只有CLEAN成功将原本功能注释不准确甚至相互矛盾的卤化酶MJ1651(EC 3.13.1.8)和TTHA0338(EC 3.13.1.8)精准区分,并准确识别SsFlA多功能酶具备三种催化能力(EC 2.5.1.63, EC 2.5.1.94和EC 3.13.1.8).结果表明,CLEAN能够高效处理低相似性序列、数据不平衡及混杂酶等复杂数据集,预测准确率显著提升并兼具抗噪性和纠错能力,为酶功能注释提供高精度、强鲁棒的计算工具.此外,该项工作证实了机器学习等AI技术在卤化酶识别、分类、鉴定方面的高效性和准确性,具有巨大应用潜力. ...
An unusual aromatase/cyclase programs the formation of the phenyldimethylanthrone framework in anthrabenzoxocinones and fasamycin
0
2024
A large-scale evaluation of computational protein function prediction
2
2013
... 随着DNA测序技术的发展,特别是基因组学和宏基因组学工具的发展,人们发现了大量的蛋白质序列.然而,目前科学家只对蛋白质序列总量的0.3% (约50万)进行过研究,其中有明确实验证据支持的序列占比不足20%(<19.4%)[48-50].另一方面,蛋白质功能注释高度依赖于计算模型的运行方式.一项大规模的蛋白质功能注释关键评估(CAFA)研究发现,使用现有计算工具自动注释的酶中有40%是不正确的[50].因此,从有限的实验数据基础上对未知或未表征酶进行准确功能注释预测,对于蛋白质序列数据分析处理和应用至关重要.为了突破已有方法的局限性(表2),赵惠民团队开发了一种基于对比学习的机器学习模型CLEAN(Contrastive Learning-enabled Enzyme ANnotation)[51].在CLEAN的任务中,具有相同酶分类编号(EC,Enzyme commission,指示酶催化何种反应的ID代码)的氨基酸序列具有较小的欧氏距离,反映了功能相似性.CLEAN基于UniProt的高质量数据库进行训练,输入氨基酸序列,随后计算对比输入样本间的欧式距离,就可得到EC可能性排序列表.为了验证CLEAN的准确性和稳健性,针对UniProt数据库中样本有限,研究不足的卤化酶数据集,使用CLEAN及其他六种最先进的注释工具(ProteInfer、BLASTp、DeepEC、DEEPre、COFACTOR和ECPred)对36种未完全注释的卤化酶的EC编号进行重新分配,结合实验验证结果,综合表明CLEAN(预测精度86.7至100%)在酶功能预测任务中比其他工具(例如,DeepEC中约11.1%,ProteInfer中11.1至61.1%)更具优越性.此外,所有预测工具中只有CLEAN成功将原本功能注释不准确甚至相互矛盾的卤化酶MJ1651(EC 3.13.1.8)和TTHA0338(EC 3.13.1.8)精准区分,并准确识别SsFlA多功能酶具备三种催化能力(EC 2.5.1.63, EC 2.5.1.94和EC 3.13.1.8).结果表明,CLEAN能够高效处理低相似性序列、数据不平衡及混杂酶等复杂数据集,预测准确率显著提升并兼具抗噪性和纠错能力,为酶功能注释提供高精度、强鲁棒的计算工具.此外,该项工作证实了机器学习等AI技术在卤化酶识别、分类、鉴定方面的高效性和准确性,具有巨大应用潜力. ...

红线表示对氟化活性至关重要的残基;黄线表示能与腺嘌呤C2′位点修饰基团形成氢键的残基 ...

红线表示对氟化活性至关重要的残基;黄线表示能与腺嘌呤C2′位点修饰基团形成氢键的残基 ...

Other Images/Table from this Article