Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >密苏里大学许东团队提出S-PLM模型,通过序列和结构对比学习的语言模型进行蛋白质预测

密苏里大学许东团队提出S-PLM模型,通过序列和结构对比学习的语言模型进行蛋白质预测

作者头像
智药邦
发布于 2025-02-05 07:21:13
发布于 2025-02-05 07:21:13
3400
举报
文章被收录于专栏:智药邦智药邦

蛋白质在各种生化过程中起着至关重要的作用。大型蛋白质语言模型(PLM)通过加速蛋白质功能的确定和具有所需功能的蛋白质的设计,在重塑蛋白质研究方面具有良好的潜力。PLM的预测和设计能力依赖于从蛋白质序列中获得的表示。然而,大多数PLM缺乏关键的3D结构信息,这限制了PLM在各种应用中的预测能力,特别是在高度依赖3D结构的应用中。

2024年12月12日,美国密苏里大学许东教授团队在Advanced Science上发表文章S-PLM: Structure-Aware Protein Language Model via Contrastive Learning Between Sequence and Structure。

作者提出了S-PLM,这是一种3D结构感知的蛋白质语言模型(PLM),它利用多视图对比学习来对齐协调潜在空间中蛋白质的序列和3D结构。S-PLM利用Swin-Transformer在AlphaFold预测的蛋白质结构上嵌入结构信息,并将其融合到蛋白质语言模型ESM2的序列嵌入中。实验证明了S-PLM的性能超越了现有方法。

如图1所示,S-PLM预训练架构由两个编码器组成(图1a),一个编码蛋白质序列,另一个编码三维蛋白质结构。本研究采用单字母氨基酸序列作为蛋白质序列的输入。由于残基间距离包含了蛋白质结构的全面和必要的信息,因此使用主链Cα接触图来表示蛋白质的三维结构。在预训练过程中,S-PLM同时输入氨基酸序列和主链Cα接触图。通过序列编码器将蛋白质序列信息转换为残基级嵌入,通过结构编码器(Swin-Transformer)将接触图信息转换为蛋白质级嵌入。然后,将序列和接触图转换为单独的蛋白质水平嵌入。最后,使用对比学习训练S-PLM模型,以最小化同一批序列和接触图的对比损失。S-PLM模型的目标是最大化同一蛋白质序列和结构的嵌入对齐,并明确分离不同蛋白质之间的序列和结构的嵌入去对齐。受SimCLR方法的启发,本工作采用了CLIP方法进行对比语言图像预训练。除了CLIP跨不同模态的对齐和去对齐之外,模型还考虑了同一模态内的去对齐。例如,如图1a所示,模型还强调不同蛋白质的序列(s1与s2)和接触图(c1与c2)的嵌入之间的不相似性。

图1 S-PLM结构图

S-PLM的序列编码器通过将结构感知模块集成到ESM2模型中来实现(图1b)。有几种方法可以实现这个结构感知模块。一种选择是通过调整预训练的权值来微调ESM2模型,这在集成结构信息的同时保留了ESM2编码器的原始架构。或者,可以使用适配器调优,其中适配器模块集成到ESM2模型的top-K Transformer层中。这些适配器模块作为结构感知组件,仅在预训练过程中进行训练。如图1b所示,结构感知模块由瓶颈结构和跳过连接组成,在一个Transformer层中定位两次:在多个头部注意力投影之后和在两个前馈层之后。使用适配器调优来实现S-PLM的序列编码器具有几个优点。首先,集成的适配器模块非常紧凑。它比ESM2原有的Transformer模块包含更少的参数,减轻了培训负担。其次,它允许连续训练以添加新的蛋白质特征(例如蛋白质功能),以用于模型的未来扩展,而不会忘记先前学习的特征,因为S-PLM预训练保留了ESM2模型的序列表示能力,而ESM2主干模型(架构及其权重)完好无损。

在推理阶段,S-PLM可以灵活地接受序列或接触图作为输入,并根据特定的下游任务产生相应的各级嵌入。这种多功能性使S-PLM能够根据给定任务的特定输入数据和要求进行调整并提供合适的表示。在本文和后续研究中,S-PLM模型主要从蛋白质序列中生成序列嵌入。因此,预训练的S-PLM序列编码器在部署之前生成残差级嵌入,用于下游任务。整个序列编码器可以完全冻结或可学习。为了充分利用S-PLM在监督蛋白预测任务中的潜力,作者基于S-PLM的序列编码器开发了几种轻量级调优策略,所有这些策略都被纳入轻量级调优工具箱,包括微调顶层、适配器调优(图1c)和LoRA调优(图1d)。

模型的序列编码器是基于预训练的ESM2模型开发的。考虑到计算资源和模型容量的限制,作者选择ESM2-t33-650M-UR50D作为基础PLM模型,该模型有6.5亿个参数。首先对每个氨基酸进行独热编码,然后使用33层Transformer编码器对输入蛋白序列进行标记。每个位置的嵌入维数为1280。在此过程中,将BEGIN令牌和END令牌添加到序列中,并与氨基酸令牌一起通过Transformer,并且使用PAD令牌填充序列。通过Transformer层,输出是每个残基1280维向量的张量,嵌入BEGIN和END标记以及填充序列的嵌入。每个残基的嵌入用于下游任务中蛋白质的残基水平表示。每个残基嵌入的平均值(不包括填充标记)用于对比学习训练和下游任务的蛋白质水平嵌入。然后,将两个投影层应用于蛋白级嵌入,将该维度转化为最终输出的蛋白级嵌入,输出维数为256。

由于接触图包含完整的蛋白质结构信息,具有固有的不变性,且易于实现,因此采用接触图来表示三维蛋白质结构。因此,作者的结构编码器是专门设计来编码蛋白质接触图的,应用Swin-Transformer (swinv2-tinty-patch4-window8-256),因为它能够更有效地从接触图表示中提取特征。为了满足图像网络需要三个输入通道的要求,将接触映射转换为具有三个通道的表示。通过计算一个序列中每个氨基酸的Cα原子之间的坐标距离,生成原始接触图。通常,如果两两距离在选定的阈值内,则接触映射值为1,表示残基之间的接触;否则,它的赋值为0。对每个通道应用距离阈值,并将原始接触映射转换为连续相似矩阵,每个通道的距离阈值为22埃,与AlphaFold2中使用的值相同。通过对Swin-Transformer表示层的嵌入进行平均,得到结构的蛋白级嵌入,用于对比学习训练。然后,对蛋白级嵌入应用两个投影层,将其维数变换为最终输出的蛋白级嵌入,其维数为256维,与序列中最终输出的蛋白级嵌入相同。

本研究中对比学习的目的是使来自同一蛋白质的序列嵌入和结构嵌入更加接近,并进一步排斥来自不同蛋白质的潜伏空间嵌入。为了实现这一点,对序列和结构编码器的最后一个投影层获得的蛋白质水平嵌入应用了多视图对比损失函数SimCLR,其中的NT-Xent对多视图对比损失函数进行了改进,该损失函数有助于最大化同一个蛋白质两个视图中蛋白质嵌入的对齐,并尽量减少蛋白质嵌入与其他蛋白质嵌入的相似性。

训练数据库从Swiss-Prot文库中获取蛋白质的氨基酸序列,并保存为FASTA格式。蛋白质的三维结构从AlphaFold2库中获得。基于AlphaFold2预测的3D结构,使用内部Python代码确定了单个蛋白质的Cα-Cα接触图。从Swiss-Prot文库中随机选择50万个蛋白进行训练,选择41500个蛋白进行验证。验证集中与训练集中相似的序列没有被删除。考虑到Swiss-Prot文库的庞大规模(总共有542378个蛋白质),这种相似性可以忽略不计。在预训练过程中,截断大于512个残基的输入蛋白,只对序列和接触图谱的前512个残基进行再训练。

本文中的轻量级调优策略是指对预先存在的模型进行特定且通常是参数有效的修改的训练方法,与完全微调训练模型相比,减少了所需的计算资源和内存。在S-PLM的序列编码器上实现微调顶层、LoRA和适配器调优,如图1所示,用于下游蛋白质序列预测任务。每项策略的详情如下:

  • 轻量调整序列编码器微调顶层:ESM2主干模型共有33层Transformer。这里的“顶层微调”是指只微调K≤33层的变压器顶层,其余的全部冻结。这里,K是构型中的一个超参数。
  • 序列编码器-LoRA的轻量级调优:LoRA指的是低秩自适应,它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入Transformer体系结构的每一层。它可以显著减少下游任务的可训练参数的数量。
  • 适配器调优:将适配器模块集成到ESM2模型的Transformer层中。适配器模块在ESM2的一个Transformer层中定位了两次:在自注意力投影之后和在两次前馈之后。每个适配器模块由一个瓶颈结构和一个跳跃连接组成。瓶颈结构将输入数据压缩到降维空间,然后对数据进行重构,使其恢复到原始输入维。瓶颈结构使适配器模块相对于原始Transformer中的注意层和前馈层具有很少的参数。ESM2模型与结构感知模块的集成如图1b所示。与最初的适配器调优不同,作者将适配器模块应用到所有Transformer层中,这些适配器模块专门插入到ESM2的top-K Transformer层中。

对于受监督的下游任务,适配器调优是通过将一组额外的并行适配器集成到结构感知模块中来实现的,每个适配器专用于一个特定的任务,如图1c所示。这些适配器模块中的每个模块都与结构感知模块中的模块共享相同的体系结构,并捕获针对各种下游任务定制的输入特性的不同方面。这些模块独立处理相同的输入特征,提取独特的表示,然后组合。为了训练新的下游任务,将一个新的可训练适配器模块添加到并行适配器列表中,同时冻结所有先前添加的并行适配器。

作者将S-PLM与一些具有代表性的方法进行了比较,如表1所示,在蛋白质折叠分类、蛋白质超家族分类、蛋白质家族分类任务上,无论是否微调模型,无论top K取值多少,S-PLM准确度都高于对应的基线语言模型ESM2,而参数量却相差不大,因此效率也相差不大。结果表明,S-PLM超越了现有方法。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。如表2所示,作者使用蛋白质功能预测中的三个数据集(生物过程BP,细胞组件CC,分子功能MF)对比了不同微调策略的影响,说明了作者设计的适配器微调的有效性。S-PLM在经过适配器微调和LoRA微调后准确度均高于使用ESM2。与适配器策略相比,LoRA策略的准确度虽然稍有降低,但其参数量显著减小,适用于轻量化部署的场景。以上结果说明了S-PLM的优越性。

表2 消融实验

作者还进行了案例分析。为了研究S-PLM是否可以将结构信息注入序列潜在空间,作者评估了CATH蛋白结构域的序列表示。由于本实验优先考虑结构信息,作者从每个CATH超家族中选择一个具有代表性的序列,以提供清晰的可视化。作者利用了CATHS40数据集,其蛋白质具有最大40%的序列同一性。作者的分析主要集中在CATH层次结构的类、体系结构和拓扑级别,不包括最后一级的同源超家族,后者主要由序列相似性驱动。作者将S-PLM生成的序列表示可视化并对仅依赖序列信息的模型进行基准测试,包括ESM2;S-PLM这两个语言模型,另外两个结构感知模型PromptProtein和ProstT5通过预测序列的3D结构或3D结构标记进行预训练(图3a)。图3a的每一行显示了一个层次结构中最具代表性的五个类别的蛋白质嵌入的t-SNE可视化。结果表明,S-PLM的序列表示比其他模型的嵌入更能清晰地分离CATH结构类。

作者进一步利用Calinski-Harabasz指数(CHI)来定量评估不同方法得到的嵌入在区分CATH结构类别方面的能力。CHI分数量化了簇间离散度之和与簇内离散度之和之间的比率。作者应用CATH分类来定义基真聚类,使用序列嵌入来计算聚类之间和聚类内部的离散度。如图2b所示,对于类、体系结构和拓扑级别,S-PLM的CHI比ProsT5高30%左右,比ESM2高300%左右。鉴于这些CATH分类是使用蛋白质结构建立的,该分析表明,所开发的S-PLM产生的序列嵌入具有固有的蛋白质结构意识,在有效区分具有不同结构特征的蛋白质方面超过了其他模型。仅使用序列的ESM2表现不佳,也表明其在明确获取蛋白质结构知识方面存在局限性。

图2 案例分析

在这项工作中,作者提出了S-PLM,一种通过蛋白质序列和3D结构之间的对比学习进行预训练的结构感知蛋白质语言模型。S-PLM序列编码器通过在预训练的ESM2模型上使用结构感知对比学习模块,生成融合三维结构信息的序列表示,同时保持ESM2原有的序列表示能力。重要的是,这种基于适配器的体系结构是可扩展的;未来如果需要加入新的蛋白质属性,如蛋白质功能、蛋白质-蛋白质相互作用等,现有的ESM2和结构感知对比学习模块可以保持不变。新属性可以通过简单地添加一个并行适配器并对更新的数据进行训练来集成。实验结果表明了S-PLM及其轻量级调优策略作为蛋白质分析和预测任务的替代PLM的潜力。

在未来,通过扩展使用更全面的蛋白质结构和序列数据库,S-PLM有望得到进一步改进。此外,作者提出的适配器调优方法为蛋白质语言模型的持续学习提供了坚实的基础。通过不断完善和扩展训练数据集,作者的目标是为S-PLM提供对不同生物背景下蛋白质结构的广泛理解。这种数据增强和模型改进的迭代过程有望推动基于序列的蛋白质表示学习的界限,使S-PLM在更广泛的蛋白质分析和预测任务中实现更高的效率。

参考文献:

Wang et al. S-PLM: Structure-Aware Protein Language Model via Contrastive Learning Between Sequence and Structure. Advanced Science. 2024

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令
今天为大家介绍的是来自之江实验室、浙江大学、南京师范大学、香港中文大学、清华大学、阿里巴巴团队的一篇论文。大型语言模型以其在捕捉复杂模式(包括共同进化关系和潜在的蛋白质语言)方面的有效性而著称。然而,当前的方法通常难以展示基因组插入、复制和插入/缺失(indels)的出现,而这些因素占人类致病性突变的约14%。鉴于结构决定功能,结构相似的突变蛋白更有可能在生物进化中保存下来。受此启发,作者利用受大型语言模型启发的跨模态对齐(cross-modality alignment)和指令微调(instruct fine-tuning)技术,将生成式蛋白质语言模型与蛋白质结构指令对齐。具体而言,我们提出了一种生成可变长度和多样化蛋白质的方法,以探索和模拟生命的复杂进化,从而扩大蛋白质工程的选择范围。作者提出的基于蛋白质语言模型的方法InstructPLM在计算机模拟和实验中都表现出显著的性能提升。在天然蛋白质主链上,它实现了2.68的困惑度(perplexity)和57.51的序列恢复率(sequence recovery rate),分别比ProteinMPNN高39.2%和25.1%。此外,作者通过重新设计PETase和L-MDH验证了模型的有效性。对于PETase,所有设计的15个可变长度的PETase都表现出解聚活性,其中11个超过了野生型的活性水平。对于L-MDH,一种缺乏实验确定结构的酶,InstructPLM能够设计出具有AF2预测结构的功能性酶。InstructPLM的代码和模型权重都公开在https://github.com/Eikor/InstructPLM。
DrugAI
2024/06/04
2580
InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
蛋白质语言模型(Protein Language Models, pLMs)已成为研究蛋白质序列与功能之间关系的重要工具。这些模型通过自监督学习从蛋白质序列中提取进化信息,为下游任务提供了丰富的特征表示。然而,尽管其在序列分析方面表现优异,现有模型通常缺乏对蛋白质三维结构的直接理解,这限制了它们在需要结构洞察的任务中的应用。
实验盒
2025/02/25
2140
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
今天给大家介绍的是南开大学王文恺博士发表在nature computational science上的文章《Single-sequence protein structure prediction using supervised transformer protein language models》。作者提出了一种单序列蛋白质结构预测算法trRosettaX-Single。具体而言,trRosettaX-Single将有监督的Transformer蛋白质语言模型中的序列嵌入整合到通过知识蒸馏增强的多尺度网络中,预测残基间二维几何结构,然后利用能量最小化重建三维结构。
DrugAI
2023/02/17
7330
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者
今天为大家介绍的是来自字节跳动Quanquan Gu团队的一篇论文。这篇论文介绍了扩散蛋白质语言模型(DPLM),这是一种多才多艺的蛋白质语言模型,展示了对蛋白质序列强大的生成和预测能力。首先,作者在一个生成自监督离散扩散概率框架中,使用进化尺度的蛋白质序列进行可扩展的DPLM预训练,这以一种有原则的方式推广了蛋白质的语言建模。在预训练之后,DPLM展示了无条件生成结构上合理、新颖且多样的蛋白质序列的能力。作者进一步证明了所提出的扩散生成预训练使DPLM对蛋白质有更好的理解,成为一种更优的表示学习者,可以针对各种预测任务进行微调,与ESM2相比具有优势。此外,DPLM可以根据各种需求进行定制,展示了其在多种条件生成方面的强大能力:(1)基于部分肽序列的条件生成,例如高成功率地生成功能基序(functional motif)的支架(scaffold);(2)将其他模态作为条件,如结构条件生成用于逆折叠;(3)通过插入式分类器引导,将序列生成引导至所需的特性,例如满足指定的二级结构。
DrugAI
2024/07/05
3710
ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者
Science | EVOLVEpro:结合蛋白质语言模型与少样本主动学习的高效 in silico 定向进化框架
今天为大家介绍的是来自哈佛医学院团队的一篇论文。定向蛋白质进化是生物医学应用的核心,但面临实验复杂性、多属性优化效率低下以及局部最优陷阱等挑战。虽然使用蛋白质语言模型(PLMs)的计算方法可以提供拟合的适应度景观(fitness landscape)指导,但它们难以跨越多样的蛋白质家族进行泛化,并且难以映射到蛋白质活性。作者提出了EVOLVEpro,这是一种少量样本的主动学习框架,结合了PLMs和回归模型,能够快速提升蛋白质活性。EVOLVEpro超越了现有方法,在所需属性上带来了高达100倍的改进。作者在RNA生产、基因组编辑和抗体结合应用中的六种蛋白质上展示了其有效性。这些结果突显了在最小实验数据下,少量样本主动学习相较于零样本预测的优势。EVOLVEpro为生物学和医学中AI指导的蛋白质工程开辟了新的可能性。
DrugAI
2024/12/23
9560
Science | EVOLVEpro:结合蛋白质语言模型与少样本主动学习的高效 in silico 定向进化框架
东北大学孟琭团队提出TAWFN模型,通过双模型自适应权重融合网络进行蛋白质功能预测
蛋白质在生物系统中起着至关重要的作用,对其功能的精确预测是实际应用中必不可少的。尽管高通量技术促进了蛋白质序列数据的激增,但揭示蛋白质的确切功能仍然需要大量的时间和资源。目前,许多方法依赖于蛋白质序列进行预测,而依赖于蛋白质结构的方法很少,且通常单独使用卷积神经网络(CNN)或图卷积网络(GCN),而如何将这两种网络有效融合以进行蛋白质预测的研究仍较为缺乏。
智药邦
2024/11/26
2570
东北大学孟琭团队提出TAWFN模型,通过双模型自适应权重融合网络进行蛋白质功能预测
基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器
无监督接触预测 (Unsupervised Contact Prediction) 是在蛋白质结构测定和设计过程中揭示蛋白质物理、结构和功能约束的核心。几十年来,主要的方法是从一组相关序列中推断进化约束。在过去的一年里,蛋白质语言模型已经成为一种潜在的替代方法,但目前性能还没有达到生物信息学中最先进的方法。本文证明了Transformer的注意图 (Attention Map) 能够从无监督语言建模目标中学习蛋白质序列中各个残基之间的接触距离。我们发现,迄今为止已经训练过的最高容量模型已经优于当前最先进的无监督接触预测的工作流程,这表明过去这些繁琐的工作流程可以用端到端模型的单向传递工作流程来代替。
智能生信
2021/02/04
2.9K0
ICML 2024 | 统一分子建模中的多尺度蛋白质语言模型
今天为大家介绍的是来自北京大学Kangjie Zheng与南京大学Siyu Long等人发表的一篇论文。蛋白质语言模型在蛋白质工程领域展示了显著的潜力。然而,当前的蛋白质语言模型主要在残基层面操作,这限制了它们提供原子级别信息的能力,阻碍了在涉及蛋白质和小分子的应用中充分发挥蛋白质语言模型的潜力。在本文中,作者提出了ms-ESM(多尺度ESM),这是一种新的方法,能够实现多尺度统一分子建模。ms-ESM通过在多尺度Code-Switch蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系,从而实现这一目标。实验结果表明,ms-ESM在蛋白质-分子任务中超越了以往的方法,充分展示了蛋白质语言模型的潜力。进一步研究表明,通过统一的分子建模,ms-ESM不仅获得了分子知识,还保留了对蛋白质的理解。
DrugAI
2024/06/18
2430
ICML 2024 | 统一分子建模中的多尺度蛋白质语言模型
Nat. Mach. Intell. | 蛋白质表征学习新方法!利用祖先序列重建生成功能性蛋白供PLM训练
今天为大家介绍的是来自澳大利亚国立大学C.J.Jackson团队的一篇论文。蛋白质语言模型(PLMs)将氨基酸序列转换为训练机器学习模型所需的数值表征。许多PLMs规模庞大(超过6亿个参数)且在广泛的蛋白质序列空间上进行训练。然而,这些模型在预测准确性和计算成本方面存在局限性。在此,作者使用多重祖先序列重建方法来生成小型但功能性聚焦的蛋白质序列数据集用于PLM训练。与大型PLMs相比,这种局部祖先序列嵌入产生了具有更高预测准确性的表征。作者表明,由于祖先序列重建数据的进化特性,局部祖先序列嵌入产生了更平滑的适应度景观,在这种景观中,适应度值相近的蛋白质变体在表征空间中的数值距离也更接近。这项工作有助于在数据稀疏且计算资源有限的现实环境中实施基于机器学习的蛋白质设计。
DrugAI
2025/02/03
1800
Nat. Mach. Intell. | 蛋白质表征学习新方法!利用祖先序列重建生成功能性蛋白供PLM训练
Nat. Commun. | 基因组语言模型预测蛋白质共同调控和功能
今天为大家介绍的是来自Peter R. Girguis团队的一篇论文。解读基因与其基因组环境之间的关系是理解和工程生物系统的基础。机器学习在从大规模蛋白质序列数据集中学习隐藏的序列-结构-功能范式关系方面显示出潜力。然而,迄今为止,利用更高阶的基因组环境信息的尝试还很有限。进化过程决定了基因在不同系统发育距离中所处的基因组环境的特异性,这些新出现的基因组模式可以用来揭示基因产物之间的功能关系。在这里,作者训练了一个基因组语言模型(gLM),通过数百万的宏基因组来学习基因之间潜在的功能和调控关系。
DrugAI
2024/04/28
4300
Nat. Commun. | 基因组语言模型预测蛋白质共同调控和功能
GPT进入蛋白质组学:LLM如何推动生命科学变革
科学家们将Transformer模型(GPT)应用于蛋白质序列数据,试图在蛋白质组学领域复制大语言模型(LLM)的成功。本篇文章将带你了解蛋白质语言模型(pLM)的起源、发展及其尚待解决的问题。
用户11203141
2025/03/06
1490
GPT进入蛋白质组学:LLM如何推动生命科学变革
Nat. Biotechnol. | 利用语言模型设计蛋白质
今天为大家介绍的是来自Ali Madani团队的一篇论文。蛋白质语言模型从进化的多样序列中学习,已被证明是序列设计、变异效应预测和结构预测的强大工具。蛋白质语言模型的基础是什么,它们如何在蛋白质工程中应用呢?
DrugAI
2024/03/26
2690
Nat. Biotechnol. | 利用语言模型设计蛋白质
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
今天为大家介绍的是来自Clara T. Schoeder团队的一篇论文。计算蛋白质序列设计的目标是修改现有蛋白质或创建新蛋白质,但在没有对蛋白质动态和变构调控进行预测的情况下设计稳定且功能性的蛋白质具有挑战性。在蛋白质设计方法中引入进化信息可以将突变的空间限制在更类似原生蛋白的序列中,从而在保持功能的同时提高稳定性。最近,经过对数百万蛋白质序列训练的语言模型在预测突变效果方面表现出色。使用语言模型对Rosetta设计的序列进行评估,其评分低于其原始序列。为了在Rosetta设计协议中引入语言模型的预测,我们使用ESM(Evolutionary Scale Modeling,进化尺度建模)模型添加了一种新指标,以在设计过程中约束能量函数。生成的序列在语言模型评分和序列恢复方面表现更好,且Rosetta能量评估显示其适应性仅略微下降。总之,作者的工作结合了最新的机器学习方法与Rosetta蛋白质设计工具箱的优势。
DrugAI
2024/05/25
3720
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测
预测变异效应对蛋白质稳定性和功能的影响,对于理解蛋白质的功能机制至关重要。然而,蛋白质变异效应的分析需要对海量数据进行处理,特别是需要评估几乎所有可能的单氨基酸取代的影响,来深入表征蛋白质突变的影响。利用机器学习模型可以帮助研究者深入了解蛋白质变异效应,并为进一步的实验验证确定优先级。近年来,蛋白质语言模型在蛋白质结构和功能预测的多个任务中表现优秀,将蛋白质语言模型应用到蛋白质变异效应预测中,有望进一步提升预测准确度。
智药邦
2024/12/31
2030
慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
随着深度学习领域的发展,大规模蛋白质语言模型(PLM)在蛋白质预测任务中的取得了很大的成绩,比如蛋白质3D结构预测和各种功能预测。
新智元
2023/01/08
5260
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
多模态蛋白质语言模型是一个新兴的方向。《Multi-scale Protein Language Model for Unified Molecular Modeling》是一篇发表在ICML 2024的文献,作者是 Kangjie Zheng、Siyu Long、Tianyu Lu、Junwei Yang、Xinyu Dai、Ming Zhang、Zaiqing Nie、Wei-Ying Ma 和 Hao Zhou。文章的蛋白质语言模型涉及到氨基酸序列和分子结构的多模态信息,提供了一个整合的思路。
实验盒
2024/06/05
2810
ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源
蛋白质结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能。而随着AlphaFold2带来的巨大突破,大量的预测结构被发布出来供人研究使用。如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。
机器之心
2024/04/26
1890
4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源
单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
而随着AlphaFold2带来的巨大突破,大量的预测结构被发布出来供人研究使用,如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。
新智元
2024/05/23
2320
单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
北京大学王劲卓团队提出DrugLAMP模型,通过多模态预训练语言模型进行药物-靶点相互作用预测
准确预测药物-靶点相互作用(DTI),特别是准确预测新的靶点或药物的相互作用,对于加速药物发现至关重要。预训练语言模型(PLM)和多模态学习的最新进展,为利用大量未标记的分子数据和整合来自多模态的互补信息来增强DTI预测,提供了新的机会。
智药邦
2025/01/13
4470
北京大学王劲卓团队提出DrugLAMP模型,通过多模态预训练语言模型进行药物-靶点相互作用预测
ICLR|ESM-Effect:基于蛋白质语言模型的突变功能效应预测框架
准确预测蛋白质突变的功能效应是一项关键且具有挑战性的任务。突变的功能效应不仅涉及其是否具有致病性(如“良性”或“有害”),更需量化其对蛋白质功能的具体影响,例如酶活性或稳定性的增减。这类信息在癌症靶向治疗和蛋白质工程中尤为重要,例如某些药物的疗效依赖于突变是否导致酶活性增强。
实验盒
2025/03/24
2950
ICLR|ESM-Effect:基于蛋白质语言模型的突变功能效应预测框架
推荐阅读
InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令
2580
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
2140
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
7330
ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者
3710
Science | EVOLVEpro:结合蛋白质语言模型与少样本主动学习的高效 in silico 定向进化框架
9560
东北大学孟琭团队提出TAWFN模型,通过双模型自适应权重融合网络进行蛋白质功能预测
2570
基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器
2.9K0
ICML 2024 | 统一分子建模中的多尺度蛋白质语言模型
2430
Nat. Mach. Intell. | 蛋白质表征学习新方法!利用祖先序列重建生成功能性蛋白供PLM训练
1800
Nat. Commun. | 基因组语言模型预测蛋白质共同调控和功能
4300
GPT进入蛋白质组学:LLM如何推动生命科学变革
1490
Nat. Biotechnol. | 利用语言模型设计蛋白质
2690
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
3720
慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测
2030
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
5260
ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA
2810
4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源
1890
单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
2320
北京大学王劲卓团队提出DrugLAMP模型,通过多模态预训练语言模型进行药物-靶点相互作用预测
4470
ICLR|ESM-Effect:基于蛋白质语言模型的突变功能效应预测框架
2950
相关推荐
InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档