前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >榕树集--从蛋白质的二级结构出发预测功能

榕树集--从蛋白质的二级结构出发预测功能

作者头像
DrugScience
发布于 2024-05-08 07:45:04
发布于 2024-05-08 07:45:04
2810
举报
文章被收录于专栏:DrugScienceDrugScience

简介

各位观众,劳动节快乐。今天介绍一篇发表在Briefings in Bioinformatics,劳动节期间见刊的文章。

GPT评: 突破常规!揭示蛋白质二级结构的神秘力量,预测功能大揭秘!

hhh,旺德福。

预测蛋白质功能对于了解生命过程,疾病预防以及寻找新靶点都至关重要。本文介绍了一种基于深度神经网络的预测模型(DeepSS2GO, Secondary Structure to Gene Ontology)。其融合了蛋白质的二级结构特征,序列和相关的同源信息,避开了直接使用三维结构的时间耗费。其预测性能超过了目前最先进的算法,预测速度也快了5倍,非常适用于大规模测序数据。

Code : https://github.com/orca233/DeepSS2GO

DeepSS2GO的架构

DeepSS2GO由三个模块组成:

  • 一个专注于二级结构的深度学习模块(model-ss8)
  • 一个专注于主要序列的深度学习模块(model-aa)
  • 一个面向同源比对的模块。

输入的主要序列被转换为二级结构(SPOT-1D-LM)。然后,主要序列和二级结构(H、G、I、E、B、T、S、C)分别通过深度学习模型进行预测,获得Pred-aa和Pred-ss8。这些预测结果与Diamond预测的Pred-bit-score结合起来,得到Final-score,公式如下, 其中α和β是两个超参数:

结果

作者进行了两类实验:指定的跨物种测试和包含所有物种的测试。

  • 跨物种测试:即在一个物种上进行训练,然后在另一个物种上进行测试。
  • 全面的物种测试:作者利用了CAFA3数据集进行基准比较,并使用SwissProt数据集开发了一个模型,以预测新物种中的蛋白质功能。

作者通过在来自不同物种的蛋白质上进行跨物种训练预测,验证了二级结构在预测功能方面优于主要序列。其次,作者将DeepSS2GO与其他最先进的方法进行比较,展示了算法的准确性和效率。第三,作者对DeepSS2GO进行消融实验。最后,作者进行了两个案例研究,以验证算法在预测关键功能方面的有效,快速和全面。

二级结构的优越性

利用整个SwissProt数据集进行训练和测试,和主要氨基酸序列相比,二级结构在预测蛋白质功能方面具有更明显的优势。因为结构决定功能;此外,通过对不同物种进行交叉训练和测试,进一步验证了基于二级结构算法的优越性,二级结构提供了更丰富的结构信息,使其在蛋白质功能预测中具有更高的准确性和预测能力。

和state-of-the-art 方法的比较

DeepSS2GO算法不仅在提升CAFA3数据集上的预测性能方面超越了可比方法,还显著提高了处理速度。利用CAFA3数据集进行训练和测试,DeepSS2GO与其他五种基于序列的方法进行比较,在各种评估指标中展示出优越性。值得注意的是,DeepSS2GO在预测准确性和计算效率方面表现出色,仅需1.2分钟即可处理CAFA3测试数据集中的1000个蛋白质,这是显著进步。此外,其友好的设计减少了用户重新训练的成本,并且可以轻松适应不断变化的数据库

消融实验

作者进行了消融研究,旨在评估DeepSS2GO框架中三个模块(aa、ss8和Diamond)的效果。结果显示,同时使用所有三个模块可以获得最佳结果,尤其在MFO、CCO和BPO方面。单独使用ss8模块能够取得最佳的AUPR分数,而Diamond模块在Fmax值方面表现最佳。另外,与仅使用aa模块相比,aa+Diamond和ss8+Diamond的组合更有优势。最重要的是,Diamond模块的使用能够补充model-aa或model-ss8的不足,从而提高整体预测准确性。

讨论

DeepSS2GO算法通过整合蛋白质二级结构特征,将基于主要序列的测序效率与利用部分空间结构信息的准确性结合起来,从而弥补了序列和三维结构方法在蛋白质功能预测中的局限性。其准确性、关键洞察力、全面性、效率性和易更新性使其成为优秀的功能注释工具,具有优于其他算法的性能表现。然而,虽然DeepSS2GO已取得显著成果,但仍有进一步改进的空间,例如采用最新的算法进行特征提取、开发适用于更长序列的二级结构预测方法,以及整合更多信息以加强功能预测的广度和准确性。综上所述,DeepSS2GO在蛋白质功能预测领域具有潜力,有望成为未来研究的重要工具,促进生物信息学的发展和应用。

作者简介

廖茂富博士:南方科技大学生命科学学院讲席教授,南科大高分辨生物电镜结构研究院院长。其研究领域为:冷冻电镜结构、膜蛋白复合物的分子机制。实验室主页:https://liao.bio.sustech.edu.cn/

倪鸣博士:华大智造(MGI)高级副总裁。其研究领域为:系统生物学、高通量测序技术和单细胞组学。

宋甫博士:南方科技大学生命科学学院研究助理教授。其研究领域为:生物信息学、深度学习、蛋白质功能和结构预测。

苏佳岐博士:南方科技大学生命科学学院在读博士。其研究领域为:计算辅助药物设计、蛋白质设计、深度学习。

参考

Fu V Song, Jiaqi Su, Sixing Huang, Neng Zhang, Kaiyue Li, Ming Ni, Maofu Liao, DeepSS2GO: protein function prediction from secondary structure, Briefings in Bioinformatics, Volume 25, Issue 3, May 2024, bbae196, https://doi.org/10.1093/bib/bbae196

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugSci 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
比现有方法快5倍,南方科技大学团队提出基于二级结构的蛋白质功能预测模型
预测蛋白质功能对于理解生物生命过程、预防疾病和开发新的药物靶点至关重要。近年来,基于序列、结构和生物网络的蛋白质功能标注方法得到了广泛的研究。虽然通过实验或计算方法获得蛋白质的三维结构可以提高功能预测的准确性,但高通量技术对蛋白质测序的速度提出了重大挑战。现有的基于一级序列或三级结构的蛋白质功能预测方法具有固有的局限性。首先,仅通过氨基酸序列信息来准确预测未知物种的功能具有挑战性。虽然利用三级结构进行功能预测提高了准确性,但由于其耗时较长,对于分析大量数据集是不切实际的。从初级到三级,正是因为“功能信息密度”不断增加,才更容易预测功能。这个功能信息密度是指功能信息与总信息的比值。因此,开发的基于二级结构的预测算法,将基于一级序列的测序效率与利用部分空间结构信息的准确性相结合,是十分必要的。
智药邦
2024/06/11
4360
比现有方法快5倍,南方科技大学团队提出基于二级结构的蛋白质功能预测模型
Nat. Mach. Intell. | 5′ UTR语言模型:开辟蛋白质表达预测与优化的新途径
近日,来自普林斯顿大学电气和计算机工程系、斯坦福大学病理系与RVAC Medicines和Zipcode Bio等单位联合开发了一种5′ UTR语言模型(UTR-LM),由王梦迪教授担任通讯作者,褚晏伊博士和于丹博士共同担任第一作者。该模型旨在解码信使RNA(mRNA)分子起始部位的调控区,以预测和改进基因的翻译表达水平。
DrugAI
2024/04/12
7110
Nat. Mach. Intell. | 5′ UTR语言模型:开辟蛋白质表达预测与优化的新途径
蛋白质二级结构预测
连接螺旋和折叠结构 常位于蛋白结构表面,多为带点和极性氨基酸 常为活性位点组成部分
用户1359560
2020/07/14
1.5K0
2021年度蛋白质结构预测最佳方法
数十年来,在给定氨基酸线性序列的情况下,预测蛋白质三维结构的潜力一直吸引着计算生物学家。虽然在该领域取得了相当大的进展,但还没有一种方法能够可靠地生成接近、更不用说匹配实验确定结构质量的模型。在过去的一年里,基于深度学习的方法AlphaFold2和RoseTTAfold成功地在一系列靶标上实现了这一壮举,永远改变了结构生物学领域的进程。更令人印象深刻的是,欧洲分子生物学实验室和 DeepMind 之间的合作预测了 21 种模式生物的超过 350,000 种蛋白质的结构,并存储在AlphaFold 蛋白质结构数据库——计划在 2022 年将预测扩展到数百万个结构。
DrugAI
2022/03/25
5710
2021年度蛋白质结构预测最佳方法
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
今天给大家介绍的是南开大学王文恺博士发表在nature computational science上的文章《Single-sequence protein structure prediction using supervised transformer protein language models》。作者提出了一种单序列蛋白质结构预测算法trRosettaX-Single。具体而言,trRosettaX-Single将有监督的Transformer蛋白质语言模型中的序列嵌入整合到通过知识蒸馏增强的多尺度网络中,预测残基间二维几何结构,然后利用能量最小化重建三维结构。
DrugAI
2023/02/17
7120
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
高效预测几乎所有人类蛋白质结构,AlphaFold再登Nature,数据库全部免费开放
转载自Science AI 作者:雪松、凯霞 这次,AlphaFold 的预测结果几乎覆盖了人类所有的蛋白质结构,而且将免费开放给公众。这将是科学界的一笔宝贵财富。 生命所必需的每一次基础生物学活动几乎都是由蛋白质带来的。蛋白质参与创建细胞和组织并保持着它们的形状;构成维持生命所需化学反应的催化酶;充当分子工厂、转运工具和马达;充当细胞通讯的信号和接收器等等。 蛋白质由很多氨基酸长链组成,通过折叠成精确的 3D 结构来完成无数的任务。这些结构控制着它们与其它分子互动的方式,决定了其功能以及它在疾病中的功
机器之心
2023/03/29
5650
高效预测几乎所有人类蛋白质结构,AlphaFold再登Nature,数据库全部免费开放
Nat.Commun.| 使用图卷积网络的基于结构的蛋白质功能预测
今天给大家介绍的是Vladimir Gligorijević等人在nature communication上发表的文章《Structure-based protein function prediction using graph convolutional networks》。序列数据库中蛋白质数量的快速增加及其功能的多样性对自动功能预测的计算方法提出了挑战。作者提出了DeepFRI,一个利用从蛋白质语言模型和蛋白质结构中提取的序列特征来预测蛋白质功能的图卷积网络。它的性能优于当前领先的方法和基于序列的卷积神经网络,并可扩展到当前序列存储库的规模。使用同源性模型增强实验结构的训练集允许作者显著扩展预测函数的数量。DeepFRI具有显著的去噪能力,当实验结构被蛋白质模型取代时,性能只有轻微的下降。类激活图允许以前所未有的分辨率进行功能预测,允许在残基级别上进行特定位点的注释。作者通过注释来自PDB和SWISS-MODEL的结构,展示了此方法的实用性和高性能。
智能生信
2021/09/14
1.6K0
Nat.Commun.| 使用图卷积网络的基于结构的蛋白质功能预测
RNA 结构预测为什么比蛋白质难?
2020年11月的一场虚拟会议上,一项每两年举办一次的蛋白质结构预测挑战赛公布了冠军:AlphaFold。这款由 Google DeepMind 开发的计算工具以原子级精度预测了数十种蛋白质结构,取得了研究人员数十年来梦寐以求的突破。
生信菜鸟团
2025/03/28
1140
RNA 结构预测为什么比蛋白质难?
基于计算学方法的蛋白质相互作用预测综述
今天给大家介绍来自中科院的胡伦和IBM的胡鹏伟等人在Briefings in Bioinformatics上发表的文章“A survey on computational models for predicting protein-protein interactions”。预测蛋白质之间的相互作用(PPI)对研究生物体内的各种细胞学机制至关重要,计算学方法能够有效改善传统生物学方法预测PPI时耗时耗力,且预测结果不可靠的问题。在本文中,我们描述了PPI预测所需的各种蛋白质相关数据库,介绍了现有的各种计算学模型的优缺点,然后描述了常用的实验方案和模型性能评价指标,并介绍了几种在线预测工具,最后阐明了预测PPI的未来发展方向。
DrugAI
2021/05/24
3.7K0
基于计算学方法的蛋白质相互作用预测综述
5️⃣ 蛋白质序列基本和特征信息分析(1) :蛋白质序列基本信息分析(氨基酸组成,理化性质,亲疏水等)
蛋白质是生命功能的执行者,一切生命活动都与蛋白质有关。 我们知道,蛋白质结构分为一级结构和空间结构,而空间结构包含二级三级和四级结构,空间结构是蛋白质功能的关键。而一级结构又决定空间结构,也就是说空间结构的信息蕴藏在一级结构中。 一级结构指的是蛋白质中氨基酸的排列顺序,和DNA一级结构一致。 也就是说蛋白质发挥什么功能,基本在一级结构中就确定了。
Y大宽
2019/03/05
15.8K0
FFPred-GAN:“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测
今天给大家介绍伦敦大学学院David T. Jones 教授课题组发表在Nature Machine Intelligence 的一篇文章。文章中指出,现存的蛋白质功能预测方法受限于训练样本量的瓶颈,为了解决这个问题,作者提出了一种新的基于生成对抗网络的方法FFPred-GAN。FFPred-GAN能够准确学习蛋白质序列的生物物理特征的高维分布,并生成高质量的合成蛋白质特征样本。实验结果表明,通过对原始训练蛋白质特征样本的扩充,合成蛋白质特征样本成功提高了基因本体论所有三个域的预测准确性。
DrugAI
2021/02/02
1.2K0
FFPred-GAN:“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测
Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
2022年5月30日,以色列特拉维夫大学Blavatnik计算机科学学院的Haim J. Wolfson等人在Nat Methods杂志发表文章,提出了一种可解释的深度学习模型,该模型直接从原始数据中学习具有功能的结构基序 (motifs),从而可以将蛋白质结合位点和抗体表位准确地映射到蛋白质结构上。
智药邦
2022/06/08
4.5K0
Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
Nat. Commun. | 多聚体蛋白质的直接物理相互作⽤预测
今天带来的是美国乔治亚州亚特兰⼤⽣物科学学院系统⽣物学研究中⼼的Jeffrey Skolnick课题组发表在Nature上的AF2Complex predicts direct physical interactions in multimeric proteins with deep learning。
DrugAI
2022/04/20
5040
Nat. Commun. | 多聚体蛋白质的直接物理相互作⽤预测
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
随着深度学习领域的发展,大规模蛋白质语言模型(PLM)在蛋白质预测任务中的取得了很大的成绩,比如蛋白质3D结构预测和各种功能预测。
新智元
2023/01/08
5080
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
后AlphaFold时代,AI如何持续赋能蛋白质计算?
2018年12月,DeepMind 推出的 AlphaFold 根据基因序列成功预测蛋白质结构,成为 AI 技术驱动和加速科学发现的重要里程碑,引起业内广泛关注。2020年12月,DeepMind推出升级版本 AlphaFold 2,破解了蛋白质分子折叠问题,并宣称「它将改变一切」。2021年7月,DeepMind 宣布开源 AlphaFold 2 模型代码,并与 EMBL-EBI 合作开放 AlphaFold 蛋白结构数据库。 可以说,AlphaFold 与 AlphaFold 2 的相继推出拉开了人工
机器之心
2022/06/07
7890
后AlphaFold时代,AI如何持续赋能蛋白质计算?
香港科技大学提出DualNetGO模型,通过高效的特征选择对偶网络预测蛋白质功能
蛋白质-蛋白质相互作用(PPI)网络是自动标注蛋白质功能的关键。由于同一组蛋白质存在多个PPI网络,这些网络从不同方面捕获特性,因此有效利用这些异构网络是一项具有挑战性的任务。最近,一些深度学习模型结合了PPI网络,将网络上的图嵌入连接起来用于蛋白质功能预测。然而,由于不同PPI网络的密度、结构和噪声水平各不相同,不加选择地结合蛋白质特征会增加噪声水平,导致模型性能下降。可以说,高效的特征选择程序的缺乏,阻碍了对不同PPI网络信息的有效利用。
智药邦
2024/08/13
1640
香港科技大学提出DualNetGO模型,通过高效的特征选择对偶网络预测蛋白质功能
Google Research进军蛋白质结构预测:为Pfam数据库新增680万标注数据
---- 新智元报道   编辑:LRS 【新智元导读】用深度学习模型来预测蛋白质的结构和功能已经取得了不小的进展,但还缺乏优质的数据。最近Google开源了一个模型ProtENN,提供了680万条蛋白质结构数据Pfam-E,约等于之前十年的工作量。 蛋白质是所有生物体中的重要分子,在我们身体的结构和功能中都发挥着核心作用。并且从药物到洗衣粉等日常生活用品中,蛋白质也无处不在。 虽然每个蛋白质都是由氨基酸构成的链,但不同的氨基酸序列导致了不同的蛋白质结构,也导致了不同蛋白质具有不同的功能。 了解蛋白质的
新智元
2022/03/09
6880
地球超2亿蛋白质结构全预测,AlphaFold引爆「蛋白质全宇宙」!
---- 新智元报道   编辑:拉燕 Aeneas 如願 桃子 【新智元导读】今天,AlphaFold又让学术界沸腾了。DeepMind官宣,AlphaFold可以预测出2亿多个蛋白质结构,几乎覆盖了整个「蛋白质宇宙」。 今天,DeepMind再次引爆学术界! AlphaFold能够预测2亿多个蛋白质结构,实现数量级的重大飞跃。 最重要的是,全部免费开放! 在未来,预测蛋白质结构就如同使用「谷歌搜索引擎」一样简单。 DeepMind的首席执行官Demis Hassabis称, 「这个数据库涵盖了整个
新智元
2022/08/26
5330
地球超2亿蛋白质结构全预测,AlphaFold引爆「蛋白质全宇宙」!
蛋白质同源序列的python爬虫
后半部分需要用到selenium但是目前电脑的chrome版本过高,就先不继续后半部分的代码编写
Tom2Code
2023/09/25
5220
蛋白质同源序列的python爬虫
PNAS | 蛋白质结构预测屈服于机器学习
今天为大家介绍的是来自James E. Rothman的一篇短文。今年的阿尔伯特·拉斯克基础医学研究奖表彰了AlphaFold的发明,这是蛋白质研究历史上的一项革命性进展,首次提供了凭借序列信息就能够准确预测绝大多数蛋白质的三维氨基酸排列的实际能力。这一非凡的成就是由Demis Hassabis、John Jumper以及他们在Google DeepMind和其他合作者的同事们共同取得的,它建立在几十年的实验性蛋白质结构确定(结构生物学)和多种融合生物启发的统计方法的渐进发展基础之上。但是,当Jumper和Hassabis将创新的基于神经网络的机器学习方法融入其中时,结果引起了轰动。实现半个世纪以来的蛋白质结构预测梦想已经加速了化学、生物学和医学等多个领域的进展和创新。
DrugAI
2023/11/13
5450
PNAS | 蛋白质结构预测屈服于机器学习
推荐阅读
比现有方法快5倍,南方科技大学团队提出基于二级结构的蛋白质功能预测模型
4360
Nat. Mach. Intell. | 5′ UTR语言模型:开辟蛋白质表达预测与优化的新途径
7110
蛋白质二级结构预测
1.5K0
2021年度蛋白质结构预测最佳方法
5710
Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测
7120
高效预测几乎所有人类蛋白质结构,AlphaFold再登Nature,数据库全部免费开放
5650
Nat.Commun.| 使用图卷积网络的基于结构的蛋白质功能预测
1.6K0
RNA 结构预测为什么比蛋白质难?
1140
基于计算学方法的蛋白质相互作用预测综述
3.7K0
5️⃣ 蛋白质序列基本和特征信息分析(1) :蛋白质序列基本信息分析(氨基酸组成,理化性质,亲疏水等)
15.8K0
FFPred-GAN:“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测
1.2K0
Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
4.5K0
Nat. Commun. | 多聚体蛋白质的直接物理相互作⽤预测
5040
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022
5080
后AlphaFold时代,AI如何持续赋能蛋白质计算?
7890
香港科技大学提出DualNetGO模型,通过高效的特征选择对偶网络预测蛋白质功能
1640
Google Research进军蛋白质结构预测:为Pfam数据库新增680万标注数据
6880
地球超2亿蛋白质结构全预测,AlphaFold引爆「蛋白质全宇宙」!
5330
蛋白质同源序列的python爬虫
5220
PNAS | 蛋白质结构预测屈服于机器学习
5450
相关推荐
比现有方法快5倍,南方科技大学团队提出基于二级结构的蛋白质功能预测模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档