Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

作者头像
DrugAI
发布于 2022-11-28 10:00:21
发布于 2022-11-28 10:00:21
3730
举报
文章被收录于专栏:DrugAIDrugAI

作者 | 郑仰昆 审稿 | 杨崇周 指导 | 闵小平(厦门大学)

今天带来的是美国马萨诸塞州波士顿哈佛医学院系统药理学实验室发表在nature biotechnology上的Single-sequence protein structure prediction using a language model and deep learning。

单序列结构预测是较为基础的研究方向,蛋白质设计和量化序列变异对功能或免疫原性影响的研究等都需要单序列结构预测作为支持。AlphaFold2 和相关计算系统使用以多序列比对 (MSA) 编码的深度学习和共同进化关系来预测蛋白质结构。尽管这些系统有很高的预测准确性,但其对于无法生成 MSA 的孤儿蛋白质的预测、快速设计结构仍然有些不足。

本文针对以上两个问题设计了一个端到端可微循环几何网络 (RGN2),该网络使用蛋白质语言模型 (AminoBERT) 从未对齐的蛋白质中学习潜在的结构信息,以此改进之前提出的RGN。RGN2 在孤儿蛋白质和设计蛋白质类别上的性能优于 AlphaFold2 和 RoseTTAFold,同时计算时间减少了 106 倍。并证明了蛋白质语言模型在结构预测中相对于 MSA 的实践和理论优势。

模型构造

图1 RGN2的组织与应用

RGN2组成:RGN2 将基于转换器的蛋白质语言模型(AminoBERT,黄色)与使用 Frenet-Serret 框架生成蛋白质骨架结构(绿色)的 RGN 相结合。在初步构建侧链和氢键网络后,随后使用 AF2Rank(蓝色)对结构进行细化。

RGN:基于机器学习的 RGN,利用源自 MSA 的位置特异性评分矩阵(PSSM)预测蛋白质结构,将PSSM 结构关系参数化为相邻残基之间的扭转角,从而可以在 3D 空间中顺序定位蛋白质骨架(骨架几何结构包括每个氨基酸的 N、Cα 和 C' 原子的排列)。尽管 RGN1 不依赖用于生成 MSA 的协同进化信息,但对 PSSM 的要求需要多个同源序列可用。RGN2改进了RGN,利用了一种自然的方式来描述在整个多肽水平上旋转和平移不变的多肽几何形状。这涉及使用 Frenet-Serret 公式在每个 Cα 碳嵌入参考框架;然后通过一系列转换轻松构建主干。

AminoBERT: AminoBERT 旨在捕获一串隐含指定蛋白质结构的氨基酸中的潜在信息。为了生成 AminoBERT 语言模型,本文使用从 UniParc 序列数据库获得的约 2.5 亿天然蛋白质序列训练了一个 12 层转换器。训练任务第一个是预测序列中同时屏蔽的2-8个连续残基,强调从全局而不是局部上下文中学习。第二个是识别打乱的“块排列”顺序,块排列是连续的蛋白质片段交换,保留了局部序列信息,但破坏了全局连贯性,鼓励转换器从整个蛋白质序列中发现信息。RGN2 的 AminoBERT 模块以自我监督的方式独立于几何模块进行训练,无需微调。

数据:RGN2 训练是使用 ProteinNet12 数据集和仅由源自 ASTRAL SCOPe 数据集(版本 1.75)的单个蛋白质域组成的较小数据集进行的。因为本文观察到两者之间没有可检测到的差异。

图2比较 RGN2 和 AF2 对孤儿蛋白的结构预测

表1 RGN2 和 AF2、RF 和 trRosetta 跨 330 个目标的预测时间比较

结果:本文使用dRMSD 和 GDT_TS 评估了预测准确性。堆积条形图2显示了 149 种从头设计的孤儿蛋白质。条形高度表示蛋白质长度。对于富含单螺旋和弯曲或散布有螺旋的氢键转角的蛋白质,RGN2 优于所有其他方法。表1展示了对于没有同源序列的蛋白预测时花费的时间是RGN2明显占优的。

总结

RGN2 是使用机器学习从单个序列预测蛋白质结构的首次尝试之一。在设计孤儿蛋白质结构的情况下具有许多优势,因为这些蛋白质通常无法生成多序列比对。RGN2 通过将蛋白质语言模型 (AminoBERT) 与基于 Frenet-Serret 公式的简单直观的 Cα 骨架几何参数化方法融合来实现这一点。AF2 和 RF 的无模板和无 MSA 生成均比 RGN2 慢 >105 倍。本文认为,未来同时使用语言模型和 MSA 的混合方法可能会优于单独使用任何一种方法。

参考资料

Chowdhury, R., Bouatta, N., Biswas, S. et al. Single-sequence protein structure prediction using a language model and deep learning. Nat Biotechnol (2022).

https://doi.org/10.1038/s41587-022-01432-w

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
今天给大家介绍的是南开大学王文恺博士发表在nature computational science上的文章《Single-sequence protein structure prediction using supervised transformer protein language models》。作者提出了一种单序列蛋白质结构预测算法trRosettaX-Single。具体而言,trRosettaX-Single将有监督的Transformer蛋白质语言模型中的序列嵌入整合到通过知识蒸馏增强的多尺度网络中,预测残基间二维几何结构,然后利用能量最小化重建三维结构。
DrugAI
2023/02/17
7240
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
[Nature Biotechnology | 论文简读] 使用语言模型和深度学习进行单序列蛋白质结构预测
Single-sequence protein structure prediction using a language model and deep learning
智能生信
2022/12/29
4660
[Nature Biotechnology | 论文简读] 使用语言模型和深度学习进行单序列蛋白质结构预测
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
今天为大家介绍的是来自Jinbo Xu研究团队的一篇关于蛋白质结构预测的论文。蛋白质侧链装配(Protein side-chain packing,PSCP)是指在只给定主链原子位置的情况下确定氨基酸侧链构象的任务,对蛋白质结构预测、精化和设计具有重要应用。了解决这个问题,作者提出了AttnPacker,一种用于直接预测蛋白质侧链坐标的深度学习(DL)方法。与现有方法不同,AttnPacker直接利用主链的三维几何信息,同时计算所有侧链的坐标,而无需借助离散的构象库或进行昂贵的构象搜索和采样步骤。这大大提高了计算效率,相比基于DL的方法DLPacker和基于物理的RosettaPacker,推理时间减少了超过100倍。
DrugAI
2023/09/19
2860
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
随着深度学习领域的发展,大规模蛋白质语言模型(PLM)在蛋白质预测任务中的取得了很大的成绩,比如蛋白质3D结构预测和各种功能预测。
新智元
2023/01/08
5160
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
Nucleic Acids Res. | GPSFun:使用语言模型的几何感知蛋白序列功能预测
今天为大家介绍的是来自中山大学杨跃东团队的一篇论文。了解蛋白质功能对于阐明疾病机制和发现新药靶点至关重要。然而,蛋白质序列的指数增长与其有限的功能注释之间的差距正在扩大。在之前的研究中,作者开发了一系列方法,包括GraphPPIS、GraphSite、LMetalSite和SPROF-GO,用于蛋白质残基或蛋白质水平的功能注释。为了进一步提高这些方法的适用性和性能,作者现推出GPSFun,这是一款用于几何感知蛋白质序列功能注释的多功能网络服务器,结合了语言模型和几何深度学习以提升以往工具的性能。具体而言,GPSFun利用大型语言模型高效预测输入蛋白质序列的3D构象,并提取有用的序列嵌入。随后,几何图神经网络被用来捕捉蛋白质图中的序列和结构模式,从而促进各种下游预测,包括蛋白质-配体结合位点、基因本体论(gene ontologies)、亚细胞位置(subcellular locations)和蛋白质溶解度(protein solubility)。值得注意的是,GPSFun在各种任务中均表现优于最新的前沿方法,不需要多序列比对或实验蛋白质结构。GPSFun对所有用户免费开放,并提供用户友好的界面和丰富的可视化功能,网址为https://bio-web1.nscc-gz.cn/app/GPSFun。
DrugAI
2024/06/18
2590
Nucleic Acids Res. | GPSFun:使用语言模型的几何感知蛋白序列功能预测
速度提高100万倍,哈佛医学院大神提出可预测蛋白质结构的新型深度模型
生命所必需的每一次基础生物学进展几乎都是由蛋白质带来的。蛋白质参与创建细胞和组织并保持着它们的形状;构成维持生命所需化学反应的催化酶;充当分子工厂、转运工具和马达;充当细胞通讯的信号和接收器等等。
机器之心
2019/04/29
6170
速度提高100万倍,哈佛医学院大神提出可预测蛋白质结构的新型深度模型
Nat. Biotechnol. | 利用语言模型设计蛋白质
今天为大家介绍的是来自Ali Madani团队的一篇论文。蛋白质语言模型从进化的多样序列中学习,已被证明是序列设计、变异效应预测和结构预测的强大工具。蛋白质语言模型的基础是什么,它们如何在蛋白质工程中应用呢?
DrugAI
2024/03/26
2620
Nat. Biotechnol. | 利用语言模型设计蛋白质
Nat.Commun | 应用AlphaFold2进行多肽-蛋白质对接
今天为大家介绍一篇发表在nature communications上的论文,“Harnessing protein folding neural networks for peptid-protein docking”. 文章证明AlphaFold2除了能够进行结构预测之外,还可以快速准确地模拟多肽-蛋白质相互作用。在不需要多肽的多序列比对信息的情况下,作者应用AlphaFold2成功建模出多肽-蛋白质复合体,并且还可以处理配体结合诱导的受体构象变化。
DrugAI
2022/03/25
1.2K0
Nat.Commun | 应用AlphaFold2进行多肽-蛋白质对接
天壤单序列结构预测再获突破!助力生成生物学更快发展
前不久,Meta最近的新角ESMfold以超AlphaFold2一个数量级的速度刷爆AI界,拥有150亿参数规模的超大蛋白质语言模型,不依赖MSA信息,能够直接对单一蛋白质进行原子精度级别的预测,被AI界的重量级人物图灵奖得主Yann LeCun称赞为Meta-FAIR蛋白质团队的伟大新成果。
智药邦
2022/11/16
3330
天壤单序列结构预测再获突破!助力生成生物学更快发展
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
今天为大家介绍的是来自Po-Ssu Huang团队的一篇论文。蛋白质中的信息流是从序列到结构再到功能,每一步都是由前一步驱动的。蛋白质设计的基础是反转这一过程:指定一个期望的功能,设计执行这个功能的结构,并找到一个能够折叠成这个结构的序列。这个“中心法则”几乎是所有全新蛋白质设计工作的基础。我们完成这些任务的能力依赖于我们对蛋白质折叠和功能的理解,以及我们将这种理解捕捉到计算方法中的能力。近年来,深度学习衍生的方法在高效和准确的结构建模和成功设计的丰富化方面使我们能够超越蛋白质结构的设计,向功能蛋白质的设计前进。
DrugAI
2024/04/12
1230
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
ICML 2024 | Proteus:开创性的蛋白质结构生成技术
今天为大家介绍的是来自浙江大学、西湖大学、杜克大学团队的一篇论文。新型的蛋白质设计方法的开发对生物学和化学中的广泛应用至关重要。蛋白质骨架扩散技术旨在高效地生成可设计的蛋白质结构。尽管蛋白质结构预测已经取得了巨大进展,但将这些方法应用于蛋白质扩散一直具有挑战性且效率低下。作者引入了Proteus,这是一种创新的方法,使用基于图的三角形方法和多轨交互网络。在计算评估中,Proteus展示了最前沿的设计性和效率。作者通过实验表征测试了模型的可靠性。分析表明,从计算和实验的角度来看,它能够以极高的成功率生成蛋白质。作者相信,Proteus能够在无需预训练技术的情况下快速创建高度可设计的蛋白质骨架,这将极大地增强对蛋白质结构扩散的理解,并促进蛋白质设计的进步。
DrugAI
2024/07/05
2230
ICML 2024 | Proteus:开创性的蛋白质结构生成技术
加速构建蛋白质元宇宙!分子之心借MoleculeOS引擎完成AI蛋白预测三级迭代
8月11日,“AI蛋白质预测奠基人”许锦波领衔的分子之心团队宣布,在蛋白质结构预测领域取得一项重要进展。基于AI的单序列蛋白质结构预测算法RaptorX-Single可以在不使用MSA(来自同源蛋白质的多序列比对)的情况下,从其一级序列直接预测蛋白质结构,并实现超越DeepMind AlphaFold2等方法的性能。同时,RaptorX-Single所采用的模型更轻量,参数不到Meta ESMFold 方法的三分之一。
DrugAI
2022/11/28
4670
加速构建蛋白质元宇宙!分子之心借MoleculeOS引擎完成AI蛋白预测三级迭代
Nat Commun|使用AlphaFold2改进对蛋白质-蛋白质相互作用的预测
2022年3月10日,斯德哥尔摩大学生物化学和生物物理系的Arne Elofsson和Patrick Bryant在Nat Commun杂志发表文章,介绍了AlphaFold2如何预测多种异质蛋白复合物的结构,尽管它被训练为预测单个蛋白链的结构。使用优化的MSA与AlphaFold2可以准确地预测异源二聚体复合物的结构。
智药邦
2022/06/08
5K0
Nat Commun|使用AlphaFold2改进对蛋白质-蛋白质相互作用的预测
AI+Science:基于飞桨的AlphaFold2,带你入门蛋白质结构预测
1958年F.H.C. 克里克提出了生物学中重要的中心法则,DNA->RNA->蛋白质,中心法则说明,DNA可以转录形成RNA,RNA再翻译成一个个氨基酸,最后组合形成蛋白质。
用户1386409
2022/03/31
7150
AI+Science:基于飞桨的AlphaFold2,带你入门蛋白质结构预测
Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
2022年5月30日,以色列特拉维夫大学Blavatnik计算机科学学院的Haim J. Wolfson等人在Nat Methods杂志发表文章,提出了一种可解释的深度学习模型,该模型直接从原始数据中学习具有功能的结构基序 (motifs),从而可以将蛋白质结合位点和抗体表位准确地映射到蛋白质结构上。
智药邦
2022/06/08
4.6K0
Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
蛋白质语言模型(Protein Language Models, pLMs)已成为研究蛋白质序列与功能之间关系的重要工具。这些模型通过自监督学习从蛋白质序列中提取进化信息,为下游任务提供了丰富的特征表示。然而,尽管其在序列分析方面表现优异,现有模型通常缺乏对蛋白质三维结构的直接理解,这限制了它们在需要结构洞察的任务中的应用。
实验盒
2025/02/25
1850
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
上(市场篇)| 量子计算加速蛋白质折叠
蛋白质折叠(Protein folding)是蛋白质获得其功能性结构和构象的物理过程。通过这一物理过程,蛋白质从无规则卷曲折叠成特定的功能性三维结构。在从mRNA序列翻译成线性的氨基酸链时,蛋白质都是以去折叠多肽或无规则卷曲的形式存在。
量子发烧友
2023/02/24
4910
上(市场篇)| 量子计算加速蛋白质折叠
Nat Biotechnol|David Baker等:蛋白质AI设计的进展
深度学习在蛋白质结构预测和蛋白质设计方面的应用日益增多,设计出的蛋白质已进入临床试验阶段,甚至获得了美国FDA的批准。机器学习在加速设计过程、减少实现功能性蛋白质所需的实验测试变体数量方面有着巨大的潜力。随着几种生成方法的到位,该领域正朝着利用这些方法、开发设计型蛋白质的方向发展,应用领域涵盖材料科学、治疗和诊断,以及将蛋白质与电子电路集成。
智药邦
2024/03/06
2480
Nat Biotechnol|David Baker等:蛋白质AI设计的进展
2021年度蛋白质结构预测最佳方法
数十年来,在给定氨基酸线性序列的情况下,预测蛋白质三维结构的潜力一直吸引着计算生物学家。虽然在该领域取得了相当大的进展,但还没有一种方法能够可靠地生成接近、更不用说匹配实验确定结构质量的模型。在过去的一年里,基于深度学习的方法AlphaFold2和RoseTTAfold成功地在一系列靶标上实现了这一壮举,永远改变了结构生物学领域的进程。更令人印象深刻的是,欧洲分子生物学实验室和 DeepMind 之间的合作预测了 21 种模式生物的超过 350,000 种蛋白质的结构,并存储在AlphaFold 蛋白质结构数据库——计划在 2022 年将预测扩展到数百万个结构。
DrugAI
2022/03/25
5760
2021年度蛋白质结构预测最佳方法
Nat. Commun.| CopulaNet:直接从多序列联配中学习残基间距离以“从头预测”蛋白质结构
蛋白质是具有重要功能的生物大分子,其功能主要由蛋白质的三级结构决定。蛋白质结构可通过核磁共振、X射线晶体学和低温电镜等实验技术测定,然而这些实验技术有其局限性,无法跟上蛋白质序列测定的增长速度。近几年,利用深度学习技术,蛋白质结构预测取得了重大进展,能够得到较为准确的三级结构。今天为大家介绍的这篇文章,是中科院计算所卜东波老师实验室发布的关于蛋白质结构“从头预测”算法的最新研究成果(原文见https://www.nature.com/articles/s41467-021-22869-8)。以CopulaNet为核心,卜东波老师实验室开发了新版的蛋白质结构预测软件ProFOLD,预测软件源代码见http://protein.ict.ac.cn/ProFOLD,预测服务器见http://protein.ict.ac.cn/FALCON2/,欢迎大家使用ProFOLD预测蛋白质结构。
DrugAI
2021/05/24
2.4K0
Nat. Commun.| CopulaNet:直接从多序列联配中学习残基间距离以“从头预测”蛋白质结构
推荐阅读
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
7240
[Nature Biotechnology | 论文简读] 使用语言模型和深度学习进行单序列蛋白质结构预测
4660
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
2860
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
5160
Nucleic Acids Res. | GPSFun:使用语言模型的几何感知蛋白序列功能预测
2590
速度提高100万倍,哈佛医学院大神提出可预测蛋白质结构的新型深度模型
6170
Nat. Biotechnol. | 利用语言模型设计蛋白质
2620
Nat.Commun | 应用AlphaFold2进行多肽-蛋白质对接
1.2K0
天壤单序列结构预测再获突破!助力生成生物学更快发展
3330
Nat. Biotechnol. | 通过全新设计的蛋白质激发功能
1230
ICML 2024 | Proteus:开创性的蛋白质结构生成技术
2230
加速构建蛋白质元宇宙!分子之心借MoleculeOS引擎完成AI蛋白预测三级迭代
4670
Nat Commun|使用AlphaFold2改进对蛋白质-蛋白质相互作用的预测
5K0
AI+Science:基于飞桨的AlphaFold2,带你入门蛋白质结构预测
7150
Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
4.6K0
蛋白质语言模型新进展:隐式结构模型如何将结构信息融入序列表示
1850
上(市场篇)| 量子计算加速蛋白质折叠
4910
Nat Biotechnol|David Baker等:蛋白质AI设计的进展
2480
2021年度蛋白质结构预测最佳方法
5760
Nat. Commun.| CopulaNet:直接从多序列联配中学习残基间距离以“从头预测”蛋白质结构
2.4K0
相关推荐
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档