合成生物学

本期中英文目录

2023, 4(3): 1.

摘要 ( 274 )

PDF (625KB) ( 289 )

相关文章 | 计量指标

人工智能：开启生物体系计算设计的新篇章

刘海燕

2023, 4(3): 419-421. doi:10.12211/2096-8280.2023-037

摘要 ( 1256 )

HTML ( 305)

PDF (564KB) ( 1727 )

参考文献 | 相关文章 | 计量指标

基于人工智能和计算生物学的合成生物学元件设计

王晟, 王泽琛, 陈威华, 陈珂, 彭向达, 欧发芬, 郑良振, 孙瑨原, 沈涛, 赵国屏

2023, 4(3): 422-443. doi:10.12211/2096-8280.2023-004

摘要 ( 5290 )

HTML ( 706)

PDF (1930KB) ( 6651 )

数据和表 | 参考文献 | 相关文章 | 计量指标

合成生物学是按照一定的规律综合已有的信息设计和构建全新的生物元件、装置和系统，或者重新设计已有的天然生物系统。合成生物学的核心在于设计、改造、重建或制造生物元件、生物反应系统、代谢途径与过程，乃至创造具有生命活动能力的细胞和生物个体，为解决人类发展在环境、资源、能源等方面面临的若干重大挑战提供新技术方案。毫无疑问，从DNA重组到基因电路设计，合成生物学的发展为众多领域带来全新的解决方案，优良的催化与调控元件是设计高效、鲁棒的系统的基础。然而，合成生物学的元件通常是天然的生物大分子，其固有的复杂性限制了对其工程化改造，导致合成生物技术的潜力未能得到充分发掘。随着人工智能（artificial intelligence，AI）与计算生物学的兴起和发展，有望助力该技术更好地发挥其价值。本文主要介绍了基于AI与计算生物学的不同类型的元件设计，聚焦催化元件、调控元件、传感元件三类元件的设计和前沿进展以及生物元件改造在合成生物学研究领域中的应用方面的研究进展。

功能拓扑的理性设计及其在合成生物学中的应用

孙智, 杨宁, 娄春波, 汤超, 杨晓静

2023, 4(3): 444-463. doi:10.12211/2096-8280.2023-003

摘要 ( 1384 )

HTML ( 85)

PDF (2290KB) ( 1616 )

数据和表 | 参考文献 | 相关文章 | 计量指标

生物网络以超乎寻常的精度、可靠性和鲁棒性执行着各种各样复杂的功能。网络的拓扑结构、动力学性质与功能之间密切相关。如何定量刻画这种关系，找到复杂多样的生物网络的底层设计规律是系统生物学和合成生物学的巨大挑战。本文对功能拓扑的理性设计及其在合成生物学中的应用进行了综述。生物网络在统计性质上不同于随机网络，其结构呈现出模块化的趋势，本文首先总结了自然生物系统中出现的高频模块及其功能，回顾了最近系统生物学对于功能拓扑设计原理的探索，包括目前搜索功能拓扑的两种常用计算方法，同时对理论获得的典型功能拓扑进行了总结。继而总结了近年来实际合成生物学系统中功能拓扑的设计和构建，以基于转录调控的基因回路为主，按照其内部调控节点的数目，系统地介绍了不同拓扑结构被用来实现的具体功能及其典型实例。最后，介绍了近期自动化设计集成基因线路的发展、非转录多层次调控机制以及网络鲁棒性的设计原理，并简单探讨了对于复杂功能拓扑设计的机遇和挑战。

人工智能蛋白质结构设计算法研究进展

陈志航, 季梦麟, 戚逸飞

2023, 4(3): 464-487. doi:10.12211/2096-8280.2023-008

摘要 ( 3566 )

HTML ( 304)

PDF (3481KB) ( 4299 )

数据和表 | 参考文献 | 相关文章 | 计量指标

蛋白质是各类生命活动不可缺少的承担者，其序列决定了折叠后的三维结构和功能。这些具有特定功能的蛋白质在生物医学等多个领域具有重要的应用价值。计算蛋白质设计可以根据所需的蛋白功能和结构设计氨基酸序列，生成自然界中不存在的蛋白质。传统计算蛋白质设计通常采用能量函数和特定的搜索优化算法获得设计的序列。近年来，随着先进算法的发展、大数据的积累和计算机硬件算力的增长，人工智能技术得到了蓬勃发展，并逐渐应用于蛋白质设计领域。本文综述了近年人工智能在蛋白质结构设计中的进展，侧重于各类算法的介绍，从固定骨架设计、可变骨架设计和序列结构生成三个方面回顾了最新的蛋白质结构设计算法，并阐明了其相对于传统计算方法的新颖性和创新性。在人工智能技术的赋能下，蛋白质设计的成功率和合理性获得大幅提高，按需功能蛋白设计的时代即将到来。

深度学习在蛋白质功能预测中的应用

宋益东, 袁乾沐, 杨跃东

2023, 4(3): 488-506. doi:10.12211/2096-8280.2022-078

摘要 ( 3120 )

HTML ( 253)

PDF (1457KB) ( 6181 )

数据和表 | 参考文献 | 相关文章 | 计量指标

蛋白质功能预测是生物信息学中的一项重要任务，在疾病机制的阐明和药物靶点发现等领域有着重要作用。因为传统的测定蛋白质功能的生化实验通常成本高、耗时长、通量低，所以开发出高效且准确的蛋白质功能预测计算方法十分重要。蛋白质功能预测可以分为残基水平的结合位点预测和蛋白水平的基因本体论（gene ontology， GO）预测。本文首先介绍该领域常用的数据库及蛋白质特征信息，接着对当下最新的蛋白质功能预测方法进行总结。在结合位点预测方面，根据配体类型分别介绍了最新的蛋白质-蛋白质、蛋白质-多肽、蛋白质-核酸和蛋白质-小分子或离子配体的结合位点预测方法；在GO预测方面，按照预测方法的类别分别介绍了最近的基于序列、基于结构和基于蛋白相互作用网络的方法。最后，对目前的蛋白质功能预测方法进行总结、分析优劣，并展望该领域未来的发展方向。

蛋白质复合物结构预测：方法与进展

黄鹤, 吴桐, 王闻达, 李佳珊, 孙黛雯, 叶启威, 龚新奇

2023, 4(3): 507-523. doi:10.12211/2096-8280.2022-079

摘要 ( 3231 )

HTML ( 170)

PDF (1732KB) ( 5415 )

数据和表 | 参考文献 | 相关文章 | 计量指标

蛋白质复合物是不同蛋白质链通过相互作用形成的，自然界中很多蛋白质通过形成复合物而执行功能，因此准确地预测复合物的结构对于理解和掌握功能至关重要。近两年来，单条蛋白质链的结构预测有了突破性的进展，从氨基酸序列出发预测蛋白质结构的水平大幅提高。但相较于单体蛋白质，蛋白质复合物结构预测的准确性仍然较低。本文旨在总结蛋白质复合物结构预测的相关算法以及介绍最新进展。首先简要介绍蛋白质结构预测领域的相关人工智能算法，主要包括共进化分析与蛋白质接触预测、深度学习方法与蛋白质结构预测、预训练模型与蛋白质表征学习几个方面；其次系统总结了蛋白质复合物链间相互作用预测的基本方法，从复合物的多重序列比对构建到对于同源或异源复合物的链间残基接触预测；最后从相互作用位点指导复合物结构预测、蛋白质分子对接算法、端到端的复合物结构预测方法等方面阐述了蛋白质复合物结构预测的基本方法和思路。总体来说，目前蛋白质复合物结构预测精度不够高，有效地解决多重序列比对的配对和多聚体复合物模板搜索等问题，或者在大量的序列或结构数据上结合预训练模型的新范式，是一个合理而有效的方案。提升蛋白质复合物结构预测水平在合成生物学领域如抗体设计、药物发现等方面有很好的应用前景。

人工智能时代下的酶工程

康里奇, 谈攀, 洪亮

2023, 4(3): 524-534. doi:10.12211/2096-8280.2023-009

摘要 ( 6877 )

HTML ( 752)

PDF (1310KB) ( 6172 )

数据和表 | 参考文献 | 相关文章 | 计量指标

自然界中存在的酶拥有多种多样的功能，它们已经被应用在工业生产和学术研究中，但其中许多酶的性质和功能还不能完全满足应用需要，通过改造来提升这类酶的某些特性是酶工程的重要任务。本文介绍了酶工程的主要发展历程，并重点梳理了人工智能（AI）助力酶工程领域的研究进展。酶工程主要包括理性设计、定向进化、半理性设计和人工智能辅助设计等策略。理性设计方法根据酶的催化机理、结构等先验知识进行改造。定向进化技术通过构建随机突变文库和高通量筛选提升目标酶的稳定性和活性等性质。半理性设计方法借助一系列计算方法构建相比于定向进化更小也更合理的突变文库以降低筛选工作量。人工智能技术在大量数据驱动下可以学习有关蛋白质构成和进化的特征信息。通过直接学习自然界中存在的蛋白质序列、共进化信息和结构，深度神经网络已经可以解决许多类型的酶工程问题，如预测具有有益影响的突变、优化蛋白质的稳定性、提高催化活性等。通过对酶工程现状进行分析，本文旨在进一步推动酶的开发和优化以实现更广泛的应用，为研究者和相关从业人员提供更多有价值的见解。

数据驱动的酶反应预测与设计

曾涛, 巫瑞波

2023, 4(3): 535-550. doi:10.12211/2096-8280.2022-066

摘要 ( 2452 )

HTML ( 229)

PDF (1714KB) ( 3495 )

数据和表 | 参考文献 | 相关文章 | 计量指标

酶催化已经在日用化学品、药物和功能材料等生产中得到越来越广泛的应用。酶，作为生物制造业的核心“芯片”，其催化反应的预测与设计是推动传统生物制造走向生物智造发展的核心驱动力之一。然而目前我们对大自然酶催化的了解仍然非常有限，这严重阻碍了我们对酶催化空间的探索和利用。随着大数据时代的到来，数据驱动的计算模拟已经成为酶催化新空间的挖掘及其功能优化设计的重要手段。各种计算工具和平台的开发正极大地加速并赋能于酶学相关领域的各类实验研究。本文针对酶催化过程中底物、产物和酶的预测及设计方法进行了综述，概述了近年来酶反应相关的数据库，汇总比较了数据驱动的酶反应设计工具，着重介绍了深度学习在该领域的应用，并从数据、模型、算法、平台等多方面展望和探讨了数据驱动型计算方法在酶反应预测与设计领域的发展前景。

基于靶标结构的环肽分子计算设计

王凡灏, 来鲁华, 张长胜

2023, 4(3): 551-570. doi:10.12211/2096-8280.2023-006

摘要 ( 2359 )

HTML ( 150)

PDF (2810KB) ( 5304 )

数据和表 | 参考文献 | 相关文章 | 计量指标

环肽在调控蛋白质-蛋白质相互作用方面具有独特的优势，在新药研发领域受到了越来越多的关注。蛋白质相互作用界面一般较大而平坦，相较于小分子化合物，环肽分子更容易获得与这些靶标位点结合的高亲和力和高特异性。相较于线性多肽或蛋白质，环肽结构一般具有更大的骨架刚性，更难被酶降解，从而在代谢上更稳定，而且环肽更易于通过修饰改造增加跨膜活性，从而结合细胞内的靶标蛋白。结构数据和结构建模方法是开发基于靶标结构计算设计环肽药物的基础。本文分析了蛋白质结构数据库中环肽与靶标蛋白结合情况，介绍了目前环肽构象生成或结构预测的四类主要算法；总结了基于靶标结构计算设计环肽分子的主要方法，包括基于分子对接的虚拟筛选方法、借助于动力学模拟的设计方法、从头生成的设计方法以及具有跨膜活性的环肽设计方法；并展望了数据驱动的机器学习方法在环肽设计领域中的可能应用以及未来环肽药物分子开发的可能方向。

“可折叠性”在酶智能设计改造中的应用研究——以AlphaFold2为例

孟巧珍, 郭菲

2023, 4(3): 571-589. doi:10.12211/2096-8280.2023-011

摘要 ( 2029 )

HTML ( 134)

PDF (1986KB) ( 4256 )

数据和表 | 参考文献 | 相关文章 | 计量指标

天然酶具有绿色环保、高效催化的优点，但由于工业环境的酸碱性、温度等条件不够适宜，天然酶在实际工业生产中往往存在错误折叠、功能受限等问题。使用人工智能技术辅助酶的改造设计，相比传统方法具有高效、快速、低成本的优势，但在这个过程中大部分工作没有考虑设计改造酶的“可折叠性”问题。同时，最近几年来，以AlphaFold2为代表的蛋白质结构预测工具借助人工智能技术取得了突破性的进展，已经具有原子级别的结构预测精度。这一工具的日益成熟，不仅有助于对蛋白结构功能机制的了解，同时可以丰富现有酶结构数据，用于后续的研究。因此，基于现有酶改造以及从头设计新酶过程中出现的错误折叠导致成功率不高、实验验证成本高的问题，我们认为结合蛋白质结构预测工具辅助酶的改造设计任务，可以增加设计可靠酶的数量，同时降低实验成本。本文首先梳理回顾人工智能技术在酶设计改造中的应用，主要从序列和结构两个角度展开。然后将现有蛋白质结构预测工具归纳成四种类型分别介绍其设计原理和预测能力。接着以AlphaFold2为代表性工作，归纳了三种在现有技术基础上利用结构预测工具进一步提高酶改造的合理性以及酶设计的“可折叠性”的方式：①结构“分析器”；②突变“筛选器”；③折叠“监督器”。最后在讨论部分总结并提出了一些现有算法的不足和缺陷。随着人工智能技术的逐渐发展以及人类对蛋白质作用机理的研究，酶的改造设计精度一定会有所提高，这将助力合成生物学的快速发展。

神经退行性疾病相关蛋白病理性聚集和液液相分离研究进展

唐一鸣, 姚逸飞, 杨中元, 周运, 王子超, 韦广红

2023, 4(3): 590-610. doi:10.12211/2096-8280.2023-005

摘要 ( 2331 )

HTML ( 88)

PDF (3163KB) ( 2077 )

数据和表 | 参考文献 | 相关文章 | 计量指标

蛋白质的错误折叠和聚集与一系列神经退行性疾病密切相关，比如阿尔茨海默病、帕金森病等，其主要病理特征是以蛋白质异常聚集形成的淀粉样纤维为主要成分的包涵体。近期研究表明疾病相关蛋白大多能够发生液液相分离，形成动态可逆的液态凝聚物（亦称无膜细胞器），并参与细胞生理过程，而突变、翻译后修饰以及微环境等因素则能促进其发生不可逆液固相变形成病理性纤维。本文以几种神经退行性疾病相关蛋白为例，重点介绍蛋白质病理性聚集和液液相分离的实验研究方法和前沿进展，蛋白质相互作用、聚集和相分离微观机理的理论和计算研究，以及预测蛋白相分离能力的机器学习方法。这些研究对深入理解蛋白质病理性聚集、相变和相分离的微观机制，以及相关疾病致病机理具有重要的科学意义，并对治疗药物的设计和开发具有潜在应用价值。

微生物组生物合成基因簇发掘方法及应用前景

赖奇龙, 姚帅, 查毓国, 白虹, 宁康

2023, 4(3): 611-627. doi:10.12211/2096-8280.2022-075

摘要 ( 5597 )

HTML ( 536)

PDF (3056KB) ( 5292 )

数据和表 | 参考文献 | 相关文章 | 计量指标

生物合成基因簇（biosynthetic gene cluster， BGC）是一类非常重要的基因集合（gene set）类型。BGC普遍存在于各类生物基因组中，并且发挥着重要的代谢和调控作用。从线性结构上来说，一个BGC中的基因通常在基因组中处于相邻的位置；从基因功能上来说，一个BGC中的基因通常共同负责一类通路，生成特定的化合物小分子。因此，BGC作为极具潜力的元件来源，在合成生物学研究中极为重要。然而从序列模式上来说，一个BGC中的基因数量众多且序列差异度大，很难通过序列同源性发掘新类型的BGC。因此，建立生物合成基因簇的智能发掘策略，系统性地发掘BGC并进行验证和转化研究，不论在理论方面还是实际应用方面，都具有非常重要的价值。本文主要基于微生物组大数据，较全面地介绍了BGC挖掘的意义和瓶颈问题，系统性地总结了当前BGC发掘中的数据资源和挖掘方法，尤其是人工智能方法，指出了干湿结合方法对于验证新发掘BGC的重要价值，同时展示了新发掘BGC的多样性和广泛应用领域。最后，展望了结合现有BGC挖掘方法和合成生物学转化，将如何在广度和宽度方面扩展目前的合成生物学研究。

当期目录