Please wait a minute...
图/表 详细信息
基于深度学习识别RiPPs前体肽及裂解位点
吕靖伟, 邓子新, 张琪, 丁伟
合成生物学    2022, 3 (6): 1262-1276.   DOI:10.12211/2096-8280.2022-016
摘要   (963 HTML94 PDF(pc) (3013KB)(850)  

得益于基因测序技术的快速发展,基因组测序数据呈现爆炸式增长,核糖体合成和翻译后修饰肽(RiPPs)是近十年逐渐进入人们视野的一大类肽类天然产物。这类化合物在自然界中分布极其广泛,具有丰富的结构多样性和生物活性多样性,是天然药物的重要来源。RiPPs的发现主要依赖低通量生物实验,传统方法精确但成本高昂,随着新型计算机技术的更新迭代,包括antiSMASH、RiPP-PRISM等在内的生物信息学工具能够极大加速RiPPs挖掘进程,但依然无法突破基于同源性方法(例如搜索保守的生物合成酶)的限制——无法有效识别具有不同生物合成机制的新型RiPPs。在这里,本文首次基于自然语言处理预训练模型BERT,提出四种可以完全依赖序列数据识别RiPPs而非基于同源性及基因组上下文信息的深度学习模型,通过对各模型进行验证分析和对比,最终确定在RiPPs识别赛道上表现卓越的最佳模型BERiPPs(bidirectional language model for enhancing the performance of identification of RiPPs precursor peptides)。BERiPPs能够在不考虑基因组背景的情况下以无偏见的方式识别RiPPs前体肽,并可通过条件随机场生成对前导肽裂解位点的预测,为高通量挖掘全新RiPPs提供了思路,并在一定程度下揭示了前体肽和修饰酶间的生物学底层关系。



View image in article
图3 基于BIO规则的序列标注示例
正文中引用本图/表的段落
样本序列中的每个氨基酸(共20种天然氨基酸)可以看作是独一无二的词元,在此基础上,添加特殊类别词元[CLS]、分割词元[SEP]、填充词元[PAD]、未知词元[UNK]以及掩码词元[MASK],共同组成模型训练所需的词汇表。在RiPPs前体肽识别任务中,编码候选RiPPs前体肽的ORFs将作为模型的输入,得到其分类预测的输出(RiPPs前体肽或非RiPPs前体肽),即为RiPP标签或Non-RiPP标签。在RiPPs前体肽类别的预测任务中,模型的输出是13个RiPPs家族类别以及非RiPPs,共计14个标签。RiPPs前体肽裂解位点的预测任务在数据集处理上则与前者不同,本文基于BIO(Begin、Internal、Other)标注规则将RiPPs前体肽裂解位点处的核心肽起始氨基酸标记为B,核心肽中除起始位点外的其他氨基酸标记为Ⅰ,其余所有氨基酸均用O表示(图3),模型将会对序列中每个位置的氨基酸标签进行预测,以判断RiPPs前体肽裂解位点。
本文的其它图/表