首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Nat. Biotechnol. | 利用语言模型设计蛋白质

Nat. Biotechnol. | 利用语言模型设计蛋白质

作者头像
DrugOne
发布于 2024-03-26 10:14:13
发布于 2024-03-26 10:14:13
3240
举报
文章被收录于专栏:DrugOneDrugOne

今天为大家介绍的是来自Ali Madani团队的一篇论文。蛋白质语言模型从进化的多样序列中学习,已被证明是序列设计、变异效应预测和结构预测的强大工具。蛋白质语言模型的基础是什么,它们如何在蛋白质工程中应用呢?

蛋白质由一条线性的残基链组成,20种标准氨基酸构成了大多数天然蛋白质的词汇。这些氨基酸的排列顺序决定了蛋白质在其环境中的三级结构,进而赋予了它们特定的功能。理解蛋白质序列、结构和功能之间的关系是生物学研究的一个主要焦点。在这篇入门文章中,作者专注于一类仅基于序列操作却能捕捉到蛋白质结构和功能属性的机器学习模型。蛋白质语言模型(PLMs)是在覆盖生命进化树的大量蛋白质序列数据集上训练的。通过这些序列,PLMs学习到了蛋白质结构和功能的基础知识,使得它们能够完成广泛的蛋白质建模和设计任务。

蛋白质的进化

图 1

随着高通量DNA测序技术的进步,我们能够从各种各样的来源收集到数十亿个蛋白质序列。观测到的蛋白质序列数量(数十亿)的增长速度已经超过了结构数据收集(数十万)的速率。随着我们观测到越来越多的蛋白质序列,我们可以开始识别出驱动进化过程的模式。从结构角度看,某些突变可能通过破坏α-螺旋、引入未满足的氢键或埋藏带电原子,对二级或三级结构造成较大的干扰。一般来说,这些突变并不完全受限,但一般对现有折叠的维持倾向足够强。从功能角度看,特定的氨基酸(或残基)必须布局协调,以执行蛋白质的生物学角色。例如,在锌指基序的情况下,几个残基必须存在并且正确定位,以绑定金属离子(图1a)。就像结构约束一样,这些功能布局的违反可能发生,并产生新的功能性。然而,这样的事件极为罕见,意味着我们通常会观察到关键功能位置很少变化,如果发生这样的变化,它们通常会被其他位置的变化所补偿,这些变化共同定义了功能布局。这些对蛋白质序列的软约束通常被称为共进化。研究人员利用这些共进化信息已经促进了蛋白质建模的进步,尤其是对于蛋白质结构预测。通过语言模型,我们旨在明确地模拟蛋白质中残基之间的相互依赖性。

蛋白质语言模型的基础

根本上,蛋白质语言模型旨在预测给定迄今为止收集的所有蛋白质序列数据,观察到特定蛋白质序列S的可能性有多大。用S = (s1, s2,…, sN)表示一个蛋白质序列,其中si代表序列中位置i的氨基酸。作为初步估计,我们可能会考虑观察到一个蛋白质作为观察到其每个组成氨基酸的联合概率。在这个被称为unigram的模型下计算序列S的概率。实际上,为了计算P(S),我们只需统计我们的序列数据库中每个氨基酸发生的频率,并乘以特定序列S的概率。然而,蛋白质不是无序的氨基酸集合。相反,我们观察到的氨基酸的特定顺序是结构和功能的关键决定因素。为了捕捉这种顺序依赖性,我们可以使用前面的残基来预测下一个氨基酸的概率:

在一个n-gram模型中将这些上下文的概率相乘,形成序列的总概率。当n = 2时,这个模型被称为bigram,我们可以统计序列数据集中每个氨基酸在前一个氨基酸之后发生的频率来计算P(S)。Bigram模型可能能捕捉到二级结构的模式,这些结构显示出不同的氨基酸倾向性,但它不足以模拟由长段序列分隔的依赖性,正如图1a中的锌指域所示。为了捕捉长距离依赖性,我们可以简单地增加模型考虑的前置残基的数量。然而,实际上,随着模型扩展以考虑更多的上下文,需要通知统计测量的序列数量呈指数级增长。对于图1a中的锌指域,活性位点跨越21个连续残基,意味着我们观察到的特定排列是20的21次方种可能性之一。为了应对这一挑战,现代语言模型通常使用一种称为Transformer的神经网络架构,它能够从数据学习任意长度上下文的序列依赖性。

Transformers将整个序列上下文纳入考虑

Transformer模型最初是为了自然语言的机器翻译——例如,将英文文本翻译成德文——而提出的。原始的Transformer模型包括一个编码器,用于总结源文本,以及一个解码器,用于生成目标语言的文本。然而,在自然语言处理和蛋白质序列建模的许多应用中,这些组件被单独作为仅编码器和仅解码器语言模型使用。这两种类型的模型的网络架构大体相同(见图1b)。首先,氨基酸的输入序列被一个输入嵌入层投影到一个“隐藏的”或潜在的序列上。接下来,一系列重复的注意力层(见下文)和前馈网络处理序列表示。最后,一个残基预测层将处理过的序列表示投影回到氨基酸的预测分布上。最终,模型被训练来填补序列末尾(仅解码器)或序列中间(仅编码器)的缺失氨基酸。Transformer的关键创新之一是使用注意力机制来模拟序列间的全局依赖性。直观上,注意力机制使模型能够学习序列上下文的哪些部分对给定的预测是相关的,就像人在被问到一个阅读理解问题时可能会比其他部分更关注文章的特定部分一样。当一个序列表示传递到一个注意力层时,每个位置会发出一组查询和键向量。如果来自某一位置i的查询与另一位置j的键匹配(通常通过点积来衡量),网络就会从i到j分配高度的注意力。所有位置对的注意力值被收集到一个维度为N×N的注意力矩阵中。每个位置也会发出一个值向量。为了更新序列表示,我们根据从i到所有其他位置j的注意力及其各自的值向量,计算每个位置i的加权和。实践中,训练在蛋白质序列上的仅编码器和仅解码器模型已被证明相当有用。仅编码器模型通常用于学习序列的表示,然后适应于各种下游任务,而仅解码器模型用于生成和评分蛋白质序列。

自回归语言模型生成和评分蛋白质

解码器模型有时被称为自回归语言模型,因为它们通过迭代地基于之前的输出预测下一个残基的方式进行训练,从而生成序列。它们通过下一个令牌(token)预测目标进行训练,其中下一个氨基酸的概率是由整个前序序列信息决定的:我们在一个序列数据库上训练自回归模型来预测P(si|s<i)。为了促进这项任务,使用因果掩码来限制模型中的注意力操作,使信息只能从较早的位置流向较晚的位置,而不能反向流动(见图1b,解码器自注意力)。用于蛋白质序列的著名自回归模型包括unirep、progen和protgpt2。自回归模型可以生成采用各种折叠的多样化序列,而且预测的p(s)也已被证明与蛋白质的功能适应性相关。序列是通过从预测的分布p(si |="" s<i)中迭代抽样下一个残基生成的,每个抽样的残基被附加到序列上以通知后续的预测。以类似的方式,可以通过根据模型计算序列p(s)的可能性来评分序列,这可以被认为是给定序列被训练数据中的进化上产生的可能性。这些模型已在包括基因组、宏基因组和免疫库序列在内的各种数据集上进行了训练。通过修改训练数据的组成,我们可以改变模型生成的序列类型,以及学习更好的适应性预测器。训练数据与模型预期应用之间的这种一致性是一个关键考虑因素,对性能有重大影响。<="" p="">

掩蔽语言模型学习可泛化表示

对于编码器模型,训练目标被修改为预测序列中各残基的token。具体来说,随机选择一部分残基并用一个特殊的掩蔽token替换,然后模型(称为掩蔽语言模型)的任务是预测它们的token。与自回归模型不同,掩蔽语言模型使用双向注意力,并考虑序列中的所有残基来进行预测(见图1b,编码器自注意力)。蛋白质序列的著名掩蔽语言模型示例包括ESM和ProtTrans模型家族。为了在掩蔽语言建模目标上表现良好,模型必须学习一系列广泛的蛋白质特征。例如,为了预测一个被掩蔽残基的身份,模型被隐含地鼓励(即,无需监督)构建二级和三级结构表示(见图1c)。掩蔽语言模型的注意力矩阵也被证明可以直接编码蛋白质结构,以残基-残基接触图的形式。除了结构特征外,掩蔽蛋白质语言模型还捕捉到生物物理特性、进化上下文和家族内的排列。由于它们学习了可泛化的表示,掩蔽语言模型经常被用来为多种下游序列预测任务编码给定的蛋白质,如功能活性或相互作用的预测。

生成和优化功能性蛋白质

Madani等人(2023年)使用语言模型生成功能性蛋白酶。一个拥有超过10亿参数的自回归语言模型在超过280百万蛋白质序列上进行了训练,这些序列来自于超过19,000个家族。训练过程中加入了从给定蛋白质的相关元数据中衍生的标签,以实现高效学习,并主要提供一种可控制的——即条件性的——从期望输入参数生成序列的方法(例如,生成一个人工序列库,这些序列很可能属于预定义的蛋白质家族)。通过迭代抽样下一个氨基酸,并将之前抽样的残基上下文作为输入喂给模型(见图1d),生成了超过一百万的人工序列。为了改进序列的多样性和质量,已经开发了多种语言模型的解码策略,包括束搜索(beam search)、top-k抽样和nucleus抽样。这些技术中的每一种都在自回归解码的每一步重新塑造概率分布,平衡计算成本与生成序列的多样性和质量。与从头生成序列相比,大多数蛋白质工程努力旨在优化蛋白质的功能,前提是可以获得高度可靠的测定方法。在这种情况下,起点或父序列是已知的,并通过定向进化进行迭代优化。语言模型可以在监督设置中训练,使用来自实验数据的序列-标签对。Biswas等人(2021年)使用至少24个功能性测定的突变序列训练了一个带有监督语言模型的适应性预测器。使用马尔可夫链蒙特卡罗程序优化绿色荧光蛋白和β-内酰胺酶的序列(见图1e)。在马尔可夫链蒙特卡罗建模中,生成随机突变,通过PLM对结果蛋白质的可能性进行评分,并根据可能性接受或拒绝提议的突变。这些在计算机中设计的序列已被证明在湿实验室中具有改进的功能性。蛋白质语言模型在生成功能性蛋白质和促进给定蛋白质的优化方面已被证明是有效的。展望未来,可控制地生成功能特定的蛋白质序列仍是一个充满希望的领域。当前技术需要在一组精选的自然蛋白质上进行微调,这对于代表性不强的家族或新颖功能来说可能是一个挑战。消除这一限制可能会实现功能性蛋白质的按需生成。

编译 | 曾全晨

审稿 | 王建民

参考资料

Ruffolo, J.A., Madani, A. Designing proteins with language models. Nat Biotechnol 42, 200–202 (2024).

https://doi.org/10.1038/s41587-024-02123-4

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nat. Biotechnol. | 蛋白质结构和序列的生成模型
今天为大家介绍的是来自Jennifer Listgarten团队的一篇概述论文。像ChatGPT和DALL-E2这样的模型可以根据文本提示生成文本和图像。尽管它们处理的数据类型和目标不同,但生成模型在蛋白质工程方面同样具有巨大的潜力。
DrugOne
2024/03/18
3630
Nat. Biotechnol. | 蛋白质结构和序列的生成模型
Nat Biotechnol|David Baker等:蛋白质AI设计的进展
深度学习在蛋白质结构预测和蛋白质设计方面的应用日益增多,设计出的蛋白质已进入临床试验阶段,甚至获得了美国FDA的批准。机器学习在加速设计过程、减少实现功能性蛋白质所需的实验测试变体数量方面有着巨大的潜力。随着几种生成方法的到位,该领域正朝着利用这些方法、开发设计型蛋白质的方向发展,应用领域涵盖材料科学、治疗和诊断,以及将蛋白质与电子电路集成。
智药邦
2024/03/06
2680
Nat Biotechnol|David Baker等:蛋白质AI设计的进展
ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
多模态蛋白质语言模型是一个新兴的方向。《Multi-scale Protein Language Model for Unified Molecular Modeling》是一篇发表在ICML 2024的文献,作者是 Kangjie Zheng、Siyu Long、Tianyu Lu、Junwei Yang、Xinyu Dai、Ming Zhang、Zaiqing Nie、Wei-Ying Ma 和 Hao Zhou。文章的蛋白质语言模型涉及到氨基酸序列和分子结构的多模态信息,提供了一个整合的思路。
实验盒
2024/06/05
3210
ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
Nat. Biotechnol. | 应用机器学习于功能性蛋白质设计
今天为大家介绍的是来自Debora Marks团队的一篇论文。近期在人工智能领域的突破性进展,加上蛋白质序列和结构数据的快速积累,已经彻底改变了计算蛋白质设计的面貌。新方法有望打破自然和实验室进化的限制,加速生成用于生物技术和医学中的蛋白质。为了理解机器学习方法多样化爆炸的情况,作者提出了一个统一的框架,该框架根据模型使用的三种核心数据模态来分类:序列、结构和功能标签。
DrugOne
2024/03/19
4270
Nat. Biotechnol. | 应用机器学习于功能性蛋白质设计
Science|利用深度学习设计蛋白质功能位点
蛋白质设计在寻找能折叠成所需构象的序列方面取得了成功,但设计功能性蛋白质仍然具有挑战性。
智药邦
2022/11/16
7420
Science|利用深度学习设计蛋白质功能位点
卡内基梅隆大学提出SurfPro模型,通过表面特征进行蛋白质设计
设计具有期望生化特性和功能的蛋白质,是当前人工智能在生命科学领域最引人注目的应用之一。然而,现有的研究大多数是从蛋白质序列或结构特征出发进行蛋白质设计,而没有考虑到蛋白质分子表面在各种生化过程中所起的重要作用。实际上,分子表面决定了蛋白质在三维欧几里得空间中的形状和生化性质,如疏水性、电荷和极性等等。表面形状和相关的生化特性共同决定了潜在的蛋白质功能。给定具有几何和生化特性约束的所需表面,如何生成适合表面的蛋白质序列,仍是一个未被充分探索的领域。
智药邦
2024/07/06
4330
卡内基梅隆大学提出SurfPro模型,通过表面特征进行蛋白质设计
Nat Mach Intel|用语言模型进行可控的蛋白质设计
蛋白质是生命的通用组成部分,几乎在每个细胞过程中都发挥至关重要的作用。为特定目的设计新型蛋白质的能力有助于解决许多医疗挑战。
智药邦
2022/11/16
5930
Nat Mach Intel|用语言模型进行可控的蛋白质设计
Science|利用结构信息语言模型指导蛋白质的进化
蛋白质作为生命体系中的基本构建块,其功能与活性高度依赖于其三维结构。然而,传统上基于序列信息的蛋白质设计方法难以全面捕捉蛋白质结构与功能之间的复杂关系。为了突破这一局限,研究人员不断探索整合结构信息以指导蛋白质设计与进化的新方法。
智药邦
2024/07/19
7160
Science|利用结构信息语言模型指导蛋白质的进化
ICML 2024 | 统一分子建模中的多尺度蛋白质语言模型
今天为大家介绍的是来自北京大学Kangjie Zheng与南京大学Siyu Long等人发表的一篇论文。蛋白质语言模型在蛋白质工程领域展示了显著的潜力。然而,当前的蛋白质语言模型主要在残基层面操作,这限制了它们提供原子级别信息的能力,阻碍了在涉及蛋白质和小分子的应用中充分发挥蛋白质语言模型的潜力。在本文中,作者提出了ms-ESM(多尺度ESM),这是一种新的方法,能够实现多尺度统一分子建模。ms-ESM通过在多尺度Code-Switch蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系,从而实现这一目标。实验结果表明,ms-ESM在蛋白质-分子任务中超越了以往的方法,充分展示了蛋白质语言模型的潜力。进一步研究表明,通过统一的分子建模,ms-ESM不仅获得了分子知识,还保留了对蛋白质的理解。
DrugOne
2024/06/18
2840
ICML 2024 | 统一分子建模中的多尺度蛋白质语言模型
Nat. Commun.|概率蛋白质序列模型的生成能力
本文介绍了由坦普尔大学Vincenzo Carnevale和Allan Haldane共同通讯发表在Nature Communications的研究成果:本文提出了一个新的标准来度量蛋白质序列生成模型(GPSM)的准确性和生成能力,并使用该标准比较了不同GPSM的生成能力。与之前的度量标准相比,能够直接测量高阶边缘值,衡量GPSM捕获高阶协变的能力,对GPSM的准确性和生成能力有更加直接和科学的度量。
DrugOne
2021/12/09
6670
Nat. Commun.|概率蛋白质序列模型的生成能力
Cell Systems | 深度学习开启蛋白质设计新时代
今天为大家介绍的是来自Bruno Correia团队的一篇综述。深度学习领域的迅速进步对蛋白质设计产生了显著影响。最近,深度学习方法在蛋白质结构预测方面取得了重大突破,使我们能够得到数百万种蛋白质的高质量模型。结合用于生成建模和序列分析的新型架构,这些方法在过去几年里显著地革新了蛋白质设计领域,提高了识别新蛋白质序列和结构的准确性和能力。深度神经网络现在能够学习和提取蛋白质结构的基本特征,预测它们与其他生物分子的相互作用,并且有潜力创造用于治疗疾病的新有效药物。
DrugOne
2023/12/19
5860
Cell Systems | 深度学习开启蛋白质设计新时代
Nat. Biotechnol. | 从通用蛋白质语言模型中高效演化人类抗体
今天为大家介绍的是来自斯坦福大学研究团队的一篇利用语言模型模拟人类抗体自然演化的论文。自然进化必须探索广阔的可能序列空间,以寻找稀有但理想的突变,这表明从自然进化策略中学习可以指导人工进化。在这里,作者报告了一种利用通用蛋白质语言模型能够高效演化人类抗体的方法,该方法通过提出在进化上是合理的突变来改进抗体,尽管该模型没有提供关于目标抗原、结合特异性或蛋白质结构的任何信息。作者进行了七种抗体的语言模型引导提高亲和力实验,每种抗体仅经历两轮实验进化,筛选了每种抗体的20个或更少的变种。结果显示,作者成功将四种临床相关、高度成熟的抗体的结合亲和力提高了多达七倍,将三种未成熟抗体的结合亲和力提高了多达160倍。此外,许多设计还展示出良好的热稳定性和对埃博拉病毒和严重急性呼吸综合征冠状病毒2(SARS-CoV-2)假病毒的中和活性。改善抗体结合的相同模型还可以指导不同蛋白质家族和选择压力下的高效进化,包括抗生素抗性和酶活性,这表明这些结果适用于许多情境。
DrugOne
2023/09/19
4980
Nat. Biotechnol. | 从通用蛋白质语言模型中高效演化人类抗体
基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器
无监督接触预测 (Unsupervised Contact Prediction) 是在蛋白质结构测定和设计过程中揭示蛋白质物理、结构和功能约束的核心。几十年来,主要的方法是从一组相关序列中推断进化约束。在过去的一年里,蛋白质语言模型已经成为一种潜在的替代方法,但目前性能还没有达到生物信息学中最先进的方法。本文证明了Transformer的注意图 (Attention Map) 能够从无监督语言建模目标中学习蛋白质序列中各个残基之间的接触距离。我们发现,迄今为止已经训练过的最高容量模型已经优于当前最先进的无监督接触预测的工作流程,这表明过去这些繁琐的工作流程可以用端到端模型的单向传递工作流程来代替。
智能生信
2021/02/04
3K0
蛋白设计中的深度学习方法
今天为大家介绍的是来自耶鲁大学Gregory W.Kyro团队的一篇论文。深度学习已经改变了蛋白质设计领域,实现了精确的结构预测、序列优化和从头开始的蛋白质生成。通过AlphaFold2、RoseTTAFold、ESMFold等在单链蛋白质结构预测方面的进展已经达到接近实验精度的水平,这启发了后续工作通过AlphaFold Multimer、RoseTTAFold All-Atom、AlphaFold 3、Chai-1、Boltz-1等扩展到生物分子复合物。生成模型如ProtGPT2、ProteinMPNN和RFdiffusion已经突破了基于自然进化的限制,实现了序列和主链设计。最近,包括ESM3在内的序列-结构联合共同设计模型,将这两种模式整合到统一框架中,从而提高了可设计性。尽管取得了这些进展,但在建模序列-结构-功能关系以及确保训练数据所涵盖的蛋白质空间区域之外的稳健泛化方面仍然存在挑战。未来的进展可能会集中在序列-结构-功能共同设计框架上,这些框架能够比独立处理这些模式的模型更有效地建模适应度景观。目前的能力,加上令人眩晕的进步速度,表明该领域即将实现快速、合理地设计具有定制结构和功能的蛋白质,超越自然进化所施加的限制。
DrugOne
2025/04/15
2350
蛋白设计中的深度学习方法
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
今天为大家介绍的是来自Po-Ssu Huang团队的一篇论文。蛋白质中的信息流是从序列到结构再到功能,每一步都是由前一步驱动的。蛋白质设计的基础是反转这一过程:指定一个期望的功能,设计执行这个功能的结构,并找到一个能够折叠成这个结构的序列。这个“中心法则”几乎是所有全新蛋白质设计工作的基础。我们完成这些任务的能力依赖于我们对蛋白质折叠和功能的理解,以及我们将这种理解捕捉到计算方法中的能力。近年来,深度学习衍生的方法在高效和准确的结构建模和成功设计的丰富化方面使我们能够超越蛋白质结构的设计,向功能蛋白质的设计前进。
DrugOne
2024/04/12
1520
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
今天给大家介绍的是南开大学王文恺博士发表在nature computational science上的文章《Single-sequence protein structure prediction using supervised transformer protein language models》。作者提出了一种单序列蛋白质结构预测算法trRosettaX-Single。具体而言,trRosettaX-Single将有监督的Transformer蛋白质语言模型中的序列嵌入整合到通过知识蒸馏增强的多尺度网络中,预测残基间二维几何结构,然后利用能量最小化重建三维结构。
DrugOne
2023/02/17
7970
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测
预测变异效应对蛋白质稳定性和功能的影响,对于理解蛋白质的功能机制至关重要。然而,蛋白质变异效应的分析需要对海量数据进行处理,特别是需要评估几乎所有可能的单氨基酸取代的影响,来深入表征蛋白质突变的影响。利用机器学习模型可以帮助研究者深入了解蛋白质变异效应,并为进一步的实验验证确定优先级。近年来,蛋白质语言模型在蛋白质结构和功能预测的多个任务中表现优秀,将蛋白质语言模型应用到蛋白质变异效应预测中,有望进一步提升预测准确度。
智药邦
2024/12/31
2600
慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测
Nat. Commun. | arDCA:基于自回归模型的高效蛋白质序列生成模型
今日分享的是巴黎索邦大学、都灵理工大学和巴黎高等师范学院联合发表的文章,该篇文章介绍了一个基于简单自回归模型的蛋白质序列高效生成模型。生成模型的优越性表现在不仅可以设计基于序列数据的蛋白质,也可以提取深深地隐藏在序列数据库中蛋白质的结构和功能信息。本文提出了基于简单自回归模型的高准确率、高计算效率的序列生成模型。其性能类似于现有的基于玻尔兹曼机或深度生成模型的方法,但计算成本大大降低。此外,该模型的简单结构具有独特的数学优势,提高了在序列生成和评估上的适用性。
DrugOne
2021/11/15
7080
Nat. Commun. | arDCA:基于自回归模型的高效蛋白质序列生成模型
Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测
今天带来的是美国马萨诸塞州波士顿哈佛医学院系统药理学实验室发表在nature biotechnology上的Single-sequence protein structure prediction using a language model and deep learning。
DrugOne
2022/11/28
4080
Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测
密苏里大学许东团队提出S-PLM模型,通过序列和结构对比学习的语言模型进行蛋白质预测
蛋白质在各种生化过程中起着至关重要的作用。大型蛋白质语言模型(PLM)通过加速蛋白质功能的确定和具有所需功能的蛋白质的设计,在重塑蛋白质研究方面具有良好的潜力。PLM的预测和设计能力依赖于从蛋白质序列中获得的表示。然而,大多数PLM缺乏关键的3D结构信息,这限制了PLM在各种应用中的预测能力,特别是在高度依赖3D结构的应用中。
智药邦
2025/02/05
4810
密苏里大学许东团队提出S-PLM模型,通过序列和结构对比学习的语言模型进行蛋白质预测
推荐阅读
Nat. Biotechnol. | 蛋白质结构和序列的生成模型
3630
Nat Biotechnol|David Baker等:蛋白质AI设计的进展
2680
ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
3210
Nat. Biotechnol. | 应用机器学习于功能性蛋白质设计
4270
Science|利用深度学习设计蛋白质功能位点
7420
卡内基梅隆大学提出SurfPro模型,通过表面特征进行蛋白质设计
4330
Nat Mach Intel|用语言模型进行可控的蛋白质设计
5930
Science|利用结构信息语言模型指导蛋白质的进化
7160
ICML 2024 | 统一分子建模中的多尺度蛋白质语言模型
2840
Nat. Commun.|概率蛋白质序列模型的生成能力
6670
Cell Systems | 深度学习开启蛋白质设计新时代
5860
Nat. Biotechnol. | 从通用蛋白质语言模型中高效演化人类抗体
4980
基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器
3K0
蛋白设计中的深度学习方法
2350
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
1520
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
7970
慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测
2600
Nat. Commun. | arDCA:基于自回归模型的高效蛋白质序列生成模型
7080
Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测
4080
密苏里大学许东团队提出S-PLM模型,通过序列和结构对比学习的语言模型进行蛋白质预测
4810
相关推荐
Nat. Biotechnol. | 蛋白质结构和序列的生成模型
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档