目前，蛋白质预训练语言模型大多基于Transformer架构及其变体，因此DeepSeek模型中提出的大部分关键技术可被直接借鉴并应用于蛋白质语言模型的优化中，降低其训练与推理成本.DeepSeek所采用的强化学习算法，具备在多种下游任务中提升语言模型性能的潜力，有望拓展至蛋白质序列建模与功能预测等生物应用场景.表1列举的模型中，用于理解的模型引用量最高的为ESM-2，用于生成的模型引用量最高的为ProGEN模型（ESM-2被引用3089次，ProGEN被引用1210次，数据来源Google Scholor，截至2025年5月31日）.因此，本节以引用量较高的ESM-2［19］和ProGEN［32］两种具有代表性的蛋白质语言模型为例，分析DeepSeek相关技术在该领域的可行性与应用价值. ...

Simulating 500 million years of evolution with a language model

2025

... Architecture, parameter count, pre-training task, and application scenario of currently available protein language models

Large language models generate functional protein sequences across diverse families

2023

... Architecture, parameter count, pre-training task, and application scenario of currently available protein language models

Top-down design of protein architectures with reinforcement learning

2023

... 强化学习是一种通过与环境交互学习优化决策的机器学习算法，善于处理较为复杂的决策问题，例如序列生成、创新策略发现等任务.研究表明，强化学习可用于涉及复杂的蛋白质结构和序列.面向蛋白质结构设计，华盛顿大学David Baker教授团队的Lutz等的研究［39］展示了强化学习在设计复杂蛋白质结构中的应用.他们首先根据目标的功能，通过专家的经验设计了多种针对蛋白质结构的约束条件，并给出了奖励函数.随后他们使用基于蒙特卡洛树搜索（MCTS）的强化学习方法优化结构生成模型，最终设计出了具有预定功能约束的蛋白质结构，包括盘状纳米孔和超紧凑二十面体.冷冻电镜验证表明，设计结构与计算模型高度一致.该模型体现了强化学习在复杂场景下的效果，适用于疫苗开发和信号分子展示.面向蛋白质序列设计，Wang等提出了EvoPlay模型［40］用于通过突变优化蛋白质的序列.EvoPlay首先利用大量的绿色荧光蛋白突变后的荧光强度数据，训练了一个较为准确的代理模型，用于提供奖励，随后通过自我对弈和蒙特卡洛树搜索在蛋白质序列空间中不断搜索和优化序列，最终使模型能够生成奖励较高的序列.实验数据表明，该模型设计出的36个突变体中有26个比野生型突变体发出更强的生物荧光，其中最好的突变体荧光强度比野生型提高了6倍.该模型体现了强化学习在序列突变设计和序列决策场景下的效果，适用于蛋白质和酶的定向进化.GRPO算法作为强化学习算法的一种，虽然目前未被直接应用于蛋白质设计，但是该算法本身能够减少训练所需的计算资源，提升模型的奖励期望，在基于强化学习的蛋白质序列和结构设计方面具有广阔的应用空间. ...

Self-play reinforcement learning guides protein engineering

2023

Emergent abilities of large language models

2022

... 在自然语言处理大模型领域，扩展定律［20］（scaling laws）和涌现［41］（emergent）现象是推动大模型参数量愈来愈多的基础.扩展定律表明，随着模型参数量、训练数据量及计算资源的增加，语言模型的性能会呈现出可预测的、持续性的提升.而“涌现”则描述了一种非线性增强行为——当模型参数达到某一临界点后，其在某些下游任务上会突然展现出小模型不具备的能力.自然界中也有类似的行为：当温度达到某一临界点后，一些材料会突然出现电阻消失的现象.扩展定律和涌现现象共同支撑了“只要资源足够，模型就更强”的理念，推动业界构建参数量更大的语言模型. ...

Training compute-optimal protein language models

... 在蛋白质语言模型中，已有研究初步验证了扩展定律的存在性.例如，Cheng等［42］分别对自回归式、掩码建模式架构下的蛋白质语言模型进行了扩展行为分析，结果普遍显示：预训练任务的损失确实随模型参数量和训练计算量的增加而下降，表明蛋白质语言模型确实存在着扩展定律.然而，这种训练损失的降低并不一定转化为下游任务性能的提升.即在蛋白质相关的下游任务中，模型性能与参数量之间并非一致正相关关系：Cheng等［42］在xTrimoPGLM的评估中发现，仅约44%的下游任务性能随模型参数量的增大、预训练损失降低而提升.Cheng等还发现，甚至有12%的任务甚至出现模型参数量越大下游任务性能表现越差的现象.Hesslow等［43］在提出的RITA模型的研究中发现，在酶功能预测和突变功能预测任务中，模型性能随着参数量的增大呈渐进式增长，未表现出“涌现”现象.Lin等［19］评估ESM-2模型的表征能力时发现，尽管模型参数量增加带来精度提升，但提升幅度缓慢，仍为渐进式变化.此外，Vieira等［44］的研究指出，在数据受限条件下，部分中小模型的表现优于大参数模型，说明数据质量可能比模型参数量更为关键. ...

在内部架构方面，可以从应用扩展定律、构建高质量数据集与使用非Transformer架构三个方面来改进蛋白质语言模型. ...

Observed antibody space: a diverse database of cleaned, annotated, and translated unpaired and paired antibody sequences

2022

... 在构建高质量的数据集方面，Fournier等［49］提出，参数量大的模型不一定表现得好，开发更好的蛋白质语言模型除了扩大参数规模外，还可以通过构造高质量的数据来提升蛋白质语言模型.其开发的AMPLIFY模型的预训练数据集来源于UniRef100、SCOP与OAS［67］等多个数据库，能够提升蛋白质语言模型的表示能力，其提出，在训练模型时使用降重的方法对性能有害.在参数量大小远小于ESM-2的情况下，其模型完成了对ESM-2性能的超越. ...

Sequence modeling and design from molecular to genome scale with Evo

2024

... 在非Transformer架构方面，研究者针对超长序列的问题，提出了多种架构.例如，Nguyen等提出了Evo模型［68］.该模型尽管同样采用自回归语言模型，其网络架构采用了StripedHyena架构，在长序列的建模上优于Transformer模型，在基因组预训练模型上达到了较好的性能.实验结果表明，经过在CRISPR类蛋白上进一步微调后，Evo模型能够生成新的CRISPR-Cas蛋白. ...

Deep generative models of genetic variation capture the effects of mutations

2018

... 蛋白质语言模型作为AI蛋白质设计领域的重要工具，正逐步展现出其在多种应用场景中的核心价值.在蛋白质功能注释方面，这类模型通过学习序列的深层隐空间表征，有效摆脱了对传统手工特征工程的依赖，其所生成的表示能够捕捉序列中蕴含的潜在生物学信息，并在多项功能预测与注释任务中展现出显著优势.在蛋白质及酶的工程改造中，蛋白质语言模型借助大规模预训练，掌握了自然序列的分布规律，从而理解进化过程中所体现的选择偏好［37， 69-70］.这种能力使得模型能够从最大似然估计的角度识别潜在有益突变，为功能优化提供有效指导，推动蛋白质向更具生物合理性的方向演化，缩小了搜索空间，加速了实验进程.例如，多项研究工作已经表明蛋白质语言模型能够提供有效的突变位点和突变后的氨基酸，提升酶活性和酶的稳定性. ...

Entropy-driven zero-shot deep learning model selection for viral proteins

2025

本文的其它图/表