Please wait a minute...
图/表 详细信息
DeepSeek模型分析及其在AI辅助蛋白质工程中的应用
李明辰, 钟博子韬, 余元玺, 姜帆, 张良, 谭扬, 虞慧群, 范贵生, 洪亮
合成生物学    2025, 6 (3): 636-650.   DOI:10.12211/2096-8280.2025-041
摘要   (318 HTML61 PDF(pc) (1726KB)(201)  

2025年年初,杭州深度求索人工智能基础技术研究有限公司发布并开源了其自主研发的DeepSeek-R1对话大模型。该模型具备极低的推理成本和出色的思维链推理能力,在多种任务上能够媲美甚至超越闭源的GPT-4o和o1模型,引发了国际社会的高度关注。此外,DeepSeek模型在中文对话上的优异表现以及免费商用的策略,在国内引发了部署和使用的热潮,推动了人工智能技术的普惠与发展。本文围绕DeepSeek模型的架构设计、训练方法与推理机制进行系统性分析,探讨其核心技术在AI蛋白质研究中的迁移潜力与应用前景。DeepSeek模型融合了多项自主创新的前沿技术,包括多头潜在注意力机制、混合专家网络及其负载均衡、低精度训练等,显著降低了Transformer模型的训练和推理成本。尽管DeepSeek模型原生设计用于人类语言的理解与生成,但其优化技术对同样基于Transformer模型的蛋白质预训练语言模型具有重要的参考价值。借助DeepSeek所采用的关键技术,蛋白质语言模型在训练成本、推理成本等方面有望得到显著降低。


模型架构参数量预训练任务应用场景
UniRep[30]LSTM18.2 M自回归生成理解
ESM-2[19]Transformer650 M/15 B自回归生成理解
ESM-3[31]Transformer98 B掩码预测生成
ProGEN[32]Transformer6.4 B自回归生成生成
xTrimoPGLM[33]Transformer100 B掩码预测 & 自回归生成生成
ProtT5[34]Transformer11 B掩码预测理解
SaProt[35]Transformer650 M掩码预测理解
ProSST[36]Transformer110 M掩码预测理解
ESM-1v[37]Transformer650 M掩码预测突变预测
Tranception[38]Transformer700 M自回归生成突变预测
View table in article
表1 目前常见的蛋白质语言模型的架构、参数量、预训练任务和应用场景
正文中引用本图/表的段落
基于DeepSeek-V3-Base,结合DeepSeek-R1合成的数据与指令问答数据集,研发团队构建出了面向通用对话场景的DeepSeek-V3。相较于DeepSeek-R1,DeepSeek-V3舍弃了深度思考机制,减少了推理过程中所需的token数量。虽然在部分复杂任务上的表现略逊于DeepSeek-R1,但在大多数常规文本处理任务中,DeepSeek-V3凭借更高的响应速度和更低的资源消耗,成为更具性价比的选择。除了自研模型外,DeepSeek还通过知识蒸馏的方式,将DeepSeek-R1的推理思考能力迁移到其他主流开源模型上。例如,DeepSeek-R1-Distill-Llama-70B是在Llama 70B参数版本基础上蒸馏得到,具备接近GPT-4o的性能水平,且参数规模适中,可在普通服务器设备上部署运行;而DeepSeek-R1-Distill-Qwen-1.5B则主要面向学习和实验用途,参数仅为15亿,可在移动设备或者嵌入式平台上运行,胜任轻量级推理任务。
2024年9月,OpenAI发布了具备深度思考(reasoning)能力的新一代模型o1[6],其在回答问题前会生成结构化的“思考”过程,展现出类人推理行为,但OpenAI并未公开其训练方法。DeepSeek的研究表明,通过强化学习即可有效激发模型的深度思考能力。其推出DeepSeek-R1-Zero模型在无监督微调数据的前提下,直接对基础模型DeepSeek-V3-Base进行强化学习训练,采用群体相对策略优化算法,并引入基于规则的奖励函数(如准确性与格式规范性)引导模型学习推理能力,验证了无需训练奖励模型,仅依靠人工定义的规则函数即可显著提升模型的深度思考能力。训练过程中,模型展现出若干高级推理行为,包括:“自我进化”,即在无监督条件下自发延长思考时间并反思解题路径;以及“顿悟时刻”,即通过重新评估初始方法来分配更多思考资源解决问题,表现出类似人类的认知跃迁。谷歌后续研究进一步证实,强化学习有助于模型实现知识泛化,而监督学习则更倾向于记忆拟合。这些发现表明,强化学习在增强大语言模型推理能力方面具有巨大潜力,为构建具备深度思考能力的智能系统提供了新的技术路径。
从应用场景来看,可以将蛋白质语言模型分为理解模型、生成模型两大类。理解模型侧重于计算蛋白质序列的深层表征(即通过数学形式量化序列特征),能够将氨基酸序列转化为可被计算机识别的编码,为后续的功能预测、结构分析等提供数据基础;生成模型则基于学习到的序列规律进行蛋白质序列的创新,通过模拟生物演化规律、结构逆折叠规律或结合人工设计目标,生成具备特定功能的蛋白质序列。此外,还有部分蛋白质语言模型专门被设计用于蛋白质突变预测,即根据预训练过程中学习到的蛋白质序列中的氨基酸分布规律,预测氨基酸的进化带来的影响。表1列举了目前较为常见的蛋白质语言模型的架构、参数量、预训练任务和应用场景。
目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本。DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景。表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日)。因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值。
目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本.DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日).因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值. ...

目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本.DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日).因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值. ...
Simulating 500 million years of evolution with a language model
1
2025
... Architecture, parameter count, pre-training task, and application scenario of currently available protein language models
目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本.DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日).因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值. ...
Large language models generate functional protein sequences across diverse families
3
2023
... Architecture, parameter count, pre-training task, and application scenario of currently available protein language models
目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本.DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日).因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值. ...

目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本.DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日).因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值. ...

目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本.DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日).因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值. ...

目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本.DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日).因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值. ...

目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本.DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日).因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值. ...

目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本.DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日).因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值. ...

目前,蛋白质预训练语言模型大多基于Transformer架构及其变体,因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中,降低其训练与推理成本.DeepSeek所采用的强化学习算法,具备在多种下游任务中提升语言模型性能的潜力,有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中,用于理解的模型引用量最高的为ESM-2,用于生成的模型引用量最高的为ProGEN模型(ESM-2被引用3089次,ProGEN被引用1210次,数据来源Google Scholor,截至2025年5月31日).因此,本节以引用量较高的ESM-2[19]和ProGEN[32]两种具有代表性的蛋白质语言模型为例,分析DeepSeek相关技术在该领域的可行性与应用价值. ...
Top-down design of protein architectures with reinforcement learning
1
2023
... 强化学习是一种通过与环境交互学习优化决策的机器学习算法,善于处理较为复杂的决策问题,例如序列生成、创新策略发现等任务.研究表明,强化学习可用于涉及复杂的蛋白质结构和序列.面向蛋白质结构设计,华盛顿大学David Baker教授团队的Lutz等的研究[39]展示了强化学习在设计复杂蛋白质结构中的应用.他们首先根据目标的功能,通过专家的经验设计了多种针对蛋白质结构的约束条件,并给出了奖励函数.随后他们使用基于蒙特卡洛树搜索(MCTS)的强化学习方法优化结构生成模型,最终设计出了具有预定功能约束的蛋白质结构,包括盘状纳米孔和超紧凑二十面体.冷冻电镜验证表明,设计结构与计算模型高度一致.该模型体现了强化学习在复杂场景下的效果,适用于疫苗开发和信号分子展示.面向蛋白质序列设计,Wang等提出了EvoPlay模型[40]用于通过突变优化蛋白质的序列.EvoPlay首先利用大量的绿色荧光蛋白突变后的荧光强度数据,训练了一个较为准确的代理模型,用于提供奖励,随后通过自我对弈和蒙特卡洛树搜索在蛋白质序列空间中不断搜索和优化序列,最终使模型能够生成奖励较高的序列.实验数据表明,该模型设计出的36个突变体中有26个比野生型突变体发出更强的生物荧光,其中最好的突变体荧光强度比野生型提高了6倍.该模型体现了强化学习在序列突变设计和序列决策场景下的效果,适用于蛋白质和酶的定向进化.GRPO算法作为强化学习算法的一种,虽然目前未被直接应用于蛋白质设计,但是该算法本身能够减少训练所需的计算资源,提升模型的奖励期望,在基于强化学习的蛋白质序列和结构设计方面具有广阔的应用空间. ...
Self-play reinforcement learning guides protein engineering
1
2023
... 强化学习是一种通过与环境交互学习优化决策的机器学习算法,善于处理较为复杂的决策问题,例如序列生成、创新策略发现等任务.研究表明,强化学习可用于涉及复杂的蛋白质结构和序列.面向蛋白质结构设计,华盛顿大学David Baker教授团队的Lutz等的研究[39]展示了强化学习在设计复杂蛋白质结构中的应用.他们首先根据目标的功能,通过专家的经验设计了多种针对蛋白质结构的约束条件,并给出了奖励函数.随后他们使用基于蒙特卡洛树搜索(MCTS)的强化学习方法优化结构生成模型,最终设计出了具有预定功能约束的蛋白质结构,包括盘状纳米孔和超紧凑二十面体.冷冻电镜验证表明,设计结构与计算模型高度一致.该模型体现了强化学习在复杂场景下的效果,适用于疫苗开发和信号分子展示.面向蛋白质序列设计,Wang等提出了EvoPlay模型[40]用于通过突变优化蛋白质的序列.EvoPlay首先利用大量的绿色荧光蛋白突变后的荧光强度数据,训练了一个较为准确的代理模型,用于提供奖励,随后通过自我对弈和蒙特卡洛树搜索在蛋白质序列空间中不断搜索和优化序列,最终使模型能够生成奖励较高的序列.实验数据表明,该模型设计出的36个突变体中有26个比野生型突变体发出更强的生物荧光,其中最好的突变体荧光强度比野生型提高了6倍.该模型体现了强化学习在序列突变设计和序列决策场景下的效果,适用于蛋白质和酶的定向进化.GRPO算法作为强化学习算法的一种,虽然目前未被直接应用于蛋白质设计,但是该算法本身能够减少训练所需的计算资源,提升模型的奖励期望,在基于强化学习的蛋白质序列和结构设计方面具有广阔的应用空间. ...
Emergent abilities of large language models
1
2022
... 在自然语言处理大模型领域,扩展定律[20](scaling laws)和涌现[41](emergent)现象是推动大模型参数量愈来愈多的基础.扩展定律表明,随着模型参数量、训练数据量及计算资源的增加,语言模型的性能会呈现出可预测的、持续性的提升.而“涌现”则描述了一种非线性增强行为——当模型参数达到某一临界点后,其在某些下游任务上会突然展现出小模型不具备的能力.自然界中也有类似的行为:当温度达到某一临界点后,一些材料会突然出现电阻消失的现象.扩展定律和涌现现象共同支撑了“只要资源足够,模型就更强”的理念,推动业界构建参数量更大的语言模型. ...
Training compute-optimal protein language models
2
... 在蛋白质语言模型中,已有研究初步验证了扩展定律的存在性.例如,Cheng等[42]分别对自回归式、掩码建模式架构下的蛋白质语言模型进行了扩展行为分析,结果普遍显示:预训练任务的损失确实随模型参数量和训练计算量的增加而下降,表明蛋白质语言模型确实存在着扩展定律.然而,这种训练损失的降低并不一定转化为下游任务性能的提升.即在蛋白质相关的下游任务中,模型性能与参数量之间并非一致正相关关系:Cheng等[42]在xTrimoPGLM的评估中发现,仅约44%的下游任务性能随模型参数量的增大、预训练损失降低而提升.Cheng等还发现,甚至有12%的任务甚至出现模型参数量越大下游任务性能表现越差的现象.Hesslow等[43]在提出的RITA模型的研究中发现,在酶功能预测和突变功能预测任务中,模型性能随着参数量的增大呈渐进式增长,未表现出“涌现”现象.Lin等[19]评估ESM-2模型的表征能力时发现,尽管模型参数量增加带来精度提升,但提升幅度缓慢,仍为渐进式变化.此外,Vieira等[44]的研究指出,在数据受限条件下,部分中小模型的表现优于大参数模型,说明数据质量可能比模型参数量更为关键. ...

在内部架构方面,可以从应用扩展定律、构建高质量数据集与使用非Transformer架构三个方面来改进蛋白质语言模型. ...
Observed antibody space: a diverse database of cleaned, annotated, and translated unpaired and paired antibody sequences
1
2022
... 在构建高质量的数据集方面,Fournier等[49]提出,参数量大的模型不一定表现得好,开发更好的蛋白质语言模型除了扩大参数规模外,还可以通过构造高质量的数据来提升蛋白质语言模型.其开发的AMPLIFY模型的预训练数据集来源于UniRef100、SCOP与OAS[67]等多个数据库,能够提升蛋白质语言模型的表示能力,其提出,在训练模型时使用降重的方法对性能有害.在参数量大小远小于ESM-2的情况下,其模型完成了对ESM-2性能的超越. ...
Sequence modeling and design from molecular to genome scale with Evo
1
2024
... 在非Transformer架构方面,研究者针对超长序列的问题,提出了多种架构.例如,Nguyen等提出了Evo模型[68].该模型尽管同样采用自回归语言模型,其网络架构采用了StripedHyena架构,在长序列的建模上优于Transformer模型,在基因组预训练模型上达到了较好的性能.实验结果表明,经过在CRISPR类蛋白上进一步微调后,Evo模型能够生成新的CRISPR-Cas蛋白. ...
Deep generative models of genetic variation capture the effects of mutations
1
2018
... 蛋白质语言模型作为AI蛋白质设计领域的重要工具,正逐步展现出其在多种应用场景中的核心价值.在蛋白质功能注释方面,这类模型通过学习序列的深层隐空间表征,有效摆脱了对传统手工特征工程的依赖,其所生成的表示能够捕捉序列中蕴含的潜在生物学信息,并在多项功能预测与注释任务中展现出显著优势.在蛋白质及酶的工程改造中,蛋白质语言模型借助大规模预训练,掌握了自然序列的分布规律,从而理解进化过程中所体现的选择偏好[3769-70].这种能力使得模型能够从最大似然估计的角度识别潜在有益突变,为功能优化提供有效指导,推动蛋白质向更具生物合理性的方向演化,缩小了搜索空间,加速了实验进程.例如,多项研究工作已经表明蛋白质语言模型能够提供有效的突变位点和突变后的氨基酸,提升酶活性和酶的稳定性. ...
Entropy-driven zero-shot deep learning model selection for viral proteins
1
2025
... 蛋白质语言模型作为AI蛋白质设计领域的重要工具,正逐步展现出其在多种应用场景中的核心价值.在蛋白质功能注释方面,这类模型通过学习序列的深层隐空间表征,有效摆脱了对传统手工特征工程的依赖,其所生成的表示能够捕捉序列中蕴含的潜在生物学信息,并在多项功能预测与注释任务中展现出显著优势.在蛋白质及酶的工程改造中,蛋白质语言模型借助大规模预训练,掌握了自然序列的分布规律,从而理解进化过程中所体现的选择偏好[3769-70].这种能力使得模型能够从最大似然估计的角度识别潜在有益突变,为功能优化提供有效指导,推动蛋白质向更具生物合理性的方向演化,缩小了搜索空间,加速了实验进程.例如,多项研究工作已经表明蛋白质语言模型能够提供有效的突变位点和突变后的氨基酸,提升酶活性和酶的稳定性. ...

/

本文的其它图/表