DNA序列和蛋白质类型,都是很重要的生物数据。今天我们介绍一种可以实现二者高效、准确的转换的深度学习算法。
当研究一条DNA或蛋白质序列时,主要关注的是其包含的遗传信息;当研究两条或多条DNA或蛋白质序列时,则主要关注不同序列之间的差别与联系。在生物信息学中,对生物大分子的序列比对是非常基本的工作。
在接下来的内容,作者主要讨论了几种重要的机器学习方法,重点介绍它们的优缺点。表1显示了不同机器学习方法的比较。首先介绍的是,不基于神经网络的方法,也称为“传统机器学习”。此类模型可以使用各种软件包来训练,包括Python中的scikit-learn、R中的caret 和 Julia中的MLJ。下图展示了传统机器学习的一些方法:
选自berthub.eu 作者:Bert Hubert 机器之心编译 机器之心编辑部 新冠疫苗和「源代码」,有什么关系?来自荷兰的中年程序员,对辉瑞 BNT162b2 疫苗进行了「逆向工程」,让我们看到了计算机科学与生物学之间的有趣联系。 前几天,一位程序员的作品在推特火了。 我们都知道,计算机程序是用代码编写而成的。最底层会有机器代码和汇编语言,诸如 C、Python 之类的高级语言让人们更容易理解。其实,自然界也有源代码,它的形式是「DNA 和 RNA 字符串」,其中就包含着构成生命元素的代码。
2021年12月15日,Briefings in Bioinformatics杂志发表文章,介绍了一种用深度多任务学习预测 RNA、DNA 和蛋白质结合的内在无序残基的方法。
继上次的生物学家掌握机器学习指南系列,又来继续更新啦。今天会和大家继续更新关于人工神经网络(artifical neural networks)的相关内容。
SnapGene 5 for Mac是一款强大DNA序列分析软件,能够记录DNA构建体,而无需处理复杂的工具或工作流程。然后可以将数据导出为与设计用于DNA序列的其他流行软件解决方案兼容的文件格式。
人工神经网络模型得名于这样一个事实,即所拟合的数学模型的形式受到大脑中神经元的连接性和行为的启发,最初设计用于学习大脑的功能。然而,数据科学中常用的神经网络已不再被视为大脑的模型,而是可以在某些应用中提供最先进性能的机器学习模型。近几十年来,由于深度神经网络的架构和训练的快速发展,人们对神经网络模型的兴趣与日俱增。在本节中,我们将介绍基本的神经网络,以及在生物学研究中广泛使用的各种神经网络。其中一些如图4所示。
将DNA序列转换为蛋白质序列时,插入和缺失会导致移码(frameshifts)。FrameBot可以检测并纠正这些移码。
蛋白质结构预测是生物化学中最重要的挑战之一。高精度的蛋白质结构对于药物发现至关重要。蛋白质结构预测始于20世纪50年代,随着计算方法和对蛋白质结构的认识不断增长。最初主要采用基于物理的方法和理论模型。当时的计算能力有限,这些模型往往难以成功地预测大多数蛋白质的结构。蛋白质结构模型的下一个发展阶段是同源建模,出现在20世纪70年代。这些模型依赖于同源序列具有相似结构的原理。通过将目标序列与已知结构的模板序列进行多序列比对,首次成功地确定了以前未解决的序列的结构。然而,这些模型的分辨率仍然有限。20世纪80年代出现了从头开始的方法,带来了下一个分辨率提升。这些方法应用了基于物理的技术和优化算法。结合计算技术的进步,这导致了蛋白质结构预测的显著改进。为了对所有这些新方法进行基准测试,从90年代初开始了蛋白质结构预测技术评估的关键阶段(CASP)系列活动。近年来,机器学习和深度学习技术已经越来越多地集成到蛋白质结构预测方法中,尤其是自2007年以来使用长短期记忆(LSTM)以来。
质谱法可以高度准确地测量蛋白质的分子质量,轻松区分单个质子差异。然而,这项技术可以做得更多。可以在几秒钟内获得蛋白质样品中多个短多肽片段(每个片段有 20 到 30 个氨基酸残基)的序列。可以鉴定出未知的纯化蛋白质,并准确测定其质量。当与强大的肽分离方案相结合时,质谱可以在一小时内记录完整的细胞蛋白质组——定义为一个细胞中的全部蛋白质,包括对其相对丰度的估计。
近些年来,过去被视作冗余垃圾的Noncoding RNAs被发现在基因表达调控中发挥了重要作用
今天给大家介绍山东大学魏乐义教授等人在Bioinformatics期刊上发表的文章“Predicting protein-peptide binding residues via interpretable deep learning”。识别蛋白质与多肽的结合位点对于了解蛋白质功能机制和探索药物发现至关重要。尽管前人已经提出了许多相关的计算方法来解决这一问题,但这些方法大都高度依赖第三方工具或信息进行特征提取与设计,容易导致计算效率低下、预测性能不高。为了解决这一问题,作者提出了PepBCL,这是一种新的基于BERT的对比学习框架,仅基于蛋白质序列预测蛋白质-多肽结合位点。PepBCL是一个独立于特征设计的端到端的预测模型,在基准数据集上显著优于许多SOTA方法。此外,作者团队还探讨了PepBCL中注意力机制对于蛋白质结合区域中结合位点周围残基序列特征的挖掘能力,从而对模型如何预测结合位点进行了一定的解释。最后,为了方便研究人员使用,作者团队还搭建了一个在线预测平台作为所提出的PepBCL的实现,其服务可以访问如下网址:https://server.wei-group.net/PepBCL/。
生物信息处理的复杂性不是以蛋白质信号传导级联为结束,100亿个蛋白质不是完成其任务的工人的随机汤,而是这些工作者被设计为具有特定数量以服务于与目前相关的特定功能。所有这些都由涉及辅助蛋白,DNA和信使RNA(mRNA)的紧密反馈环控制。
Harnessing protein folding neural networks for peptide–protein docking 论文摘要:
大肠杆菌产生3000多种不同的蛋白质;一个人有大约20000个基因,可以产生超过一百万种不同的蛋白质。在这两个物种中,每种类型的蛋白质都有一个独特的氨基酸序列,赋予特定的三维结构。这种结构又赋予了一种独特的功能。
蛋白质是生命活动的主要承担者,生命进化最终都会体现在蛋白质功能的多样化上。蛋白质是由20种氨基酸编码的,相比于ATGC的DNA遗传编码信息,氨基酸字母表显示出极大地复杂性和多样性。
大量的多组学分析,如多维基因组学和蛋白质基因组学分析,已被证明有利于获得对细胞事件的全面了解。这一优势促进了单细胞多组学分析的发展,使细胞类型特异性基因调控得以检测。
今天为大家介绍的是来自Petra Schwille团队的一篇论文。最近,机器学习(ML)的应用为计算蛋白质设计领域带来了惊人的进步,使得针对工业和生物医药应用的蛋白质定向工程设计成为可能。然而,为细胞核心相关的新兴功能设计蛋白质,比如能够在时空上自组织并因此构建细胞空间的能力,仍然极具挑战。虽然在生成方面,条件生成模型和多状态设计正在兴起,但对于新兴功能而言,无论是计算上还是实验上,都缺乏专门为蛋白质设计项目所需的筛选方法。在这里作者展示了如何为机器学习生成的蛋白质变体实现这种筛选,这些蛋白质变体能在细胞内形成时空模式。对于计算筛选,作者采用了一种基于结构的分而治之方法来找到最有希望的候选者,而对于随后的体外筛选,作者使用了由自下而上的合成生物学建立的合成细胞模拟体。
今天为大家介绍的是来自Frank DiMaio团队的一篇论文。蛋白质-核糖核酸(RNA)和蛋白质-脱氧核糖核酸(DNA)复合体在生物学中扮演着至关重要的角色。尽管近年来在蛋白质结构预测方面取得了显著进展,但预测没有同源已知复合体的蛋白质-核酸复合体的结构仍是一个基本未解决的问题。在这里,作者将RoseTTAFold机器学习蛋白结构预测方法扩展应用,以预测核酸和蛋白质-核酸复合体。作者开发了一个网络系统,RoseTTAFoldNA,它能够快速生成带有可信度估计的蛋白质-DNA和蛋白质-RNA复合体的三维结构模型。
今天,升级后的AlphaFold 3能够以前所未有的「原子精度」,预测出所有生物分子的结构和相互作用。
Silvestro G. Conticello教授及其团队3月3日发表在BioRxiv上的文章。文章发现了新冠状病毒RNA进入人体细胞以后被编辑的证据,虽然没有生化试验验证,但可以推测参与RNA编辑的APOBECs与ADARs参与到编辑新冠病毒RNA的过程。另外,作者公开了分析流程的代码。
转录因子(Transcription Factors,TFs),是指能够以特定序列与基因专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子。转录因子通过识别特定的DNA序列来控制染色质和转录,以形成指导基因组表达的复杂系统。许多转录因子充当着主调节因子和选择基因的角色,控制着细胞类型的决定、发育模式和特定途径控制(如免疫反应)的过程。
1、基因、DNA、染色体之间的关系:染色体由DNA和蛋白质构成,基因是DNA上具有遗传效应的片段。
1958年F.H.C. 克里克提出了生物学中重要的中心法则,DNA->RNA->蛋白质,中心法则说明,DNA可以转录形成RNA,RNA再翻译成一个个氨基酸,最后组合形成蛋白质。
今天介绍的是一篇单细胞综述,发表于2013年的Nature reviews genetics ,预测了如今单细胞技术的火热。文章题目是:Single-cell sequencing-based technologies will revolutionize whole-organism science。
“脱氧核糖核酸(DNA)是一种分子,其中包含每个物种独特的生物学指令。DNA及其包含的说明在繁殖过程中从成年生物传给其后代。“ —genome.gov
作者:Andre Ye deephub翻译组:孟翔杰 许多人没有想到,病毒就像地球上为生存而挣扎的其他生物一样,它们会进化或变异。
新的方法,如基因组测序和质谱技术,大大增加了科学家和医疗专业人员获取更精确诊断和增强治疗精准度所需的分子数据的数量。虽然在DNA和RNA的基因测序方面取得了最大的进展,但蛋白质和代谢物高维度测量的医疗应用也在增加。为了适应这些分子“大数据”的数量、速度和多样性,分析工具也得到了改进。机器学习的出现被证明特别有价值。在这些方法中,计算机系统使用大量数据构建预测性统计模型,并通过整合新数据进行迭代改进。深度学习是机器学习的一个强大子集,其中包括使用深度神经网络,已在图像对象识别、语音识别、自动驾驶和虚拟助理等领域具有高知名度的应用。现在,这些方法正在医学领域应用,以提供临床指导性的医疗信息。在这篇综述文章中,作者简要描述了生成高维分子数据的方法,然后重点介绍了机器学习在这些数据的临床应用中扮演的关键角色。
今年,DeepMind 公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的所有蛋白质。现在,另一家科技巨头 Meta 正在填补另一空白,微生物领域。
顺式调控密码的最小单位——类似于遗传密码的密码子——是转录因子结合位点(TFBS)。转录因子通常包含结构化和进化保守的DNA结合域(DBD),它们识别并结合一个6-12个碱基对的DNA序列,称为转录因子的“基序”。转录因子基序通常用序列标志或位置权重矩阵(PWM)描述,以表示转录因子结合特异性的退化性。DBD的保守性和高通量测量转录因子序列特异性的方法使得约有1600个已编目的转录因子在人类中被识别,并确定了这些已知转录因子的结合基序。然而,转录因子结合基序无法完全预测大多数转录因子在体内的DNA结合。虽然大多数TFBS至少包含对其首选基序的部分匹配,但大多数转录因子仅在基因组的一小部分基序上发生结合。尽管可以通过包括核苷酸围绕核心基序或使用更复杂的序列偏好表示(如二核苷酸基序和DNA形状),来提高对某些转录因子基因组结合的预测,但对于大多数转录因子来说,对体内结合的最佳预测因子是染色质的可访问性,可以通过DNase-seq或ATAC-seq等高通量测序方法来测量。这种观察结果主要归因于DNA上核小体的存在,这些核小体必须被称为“先驱”因子或共结合转录因子组合所取代或排除。
在后基因组时代,蛋白质组学在生物医学研究中发挥着重要作用。近日,Nature子刊《Laboratory Investigation》发表了一篇高通量蛋白组的mini-review,概述了高通量蛋白质组学技术、统计和算法的进展。
长期以来,创造满足各种功能需求的蛋白质一直是生物化学家的目标。这需要彻底了解多肽链序列与所得蛋白质结构之间的关系。近年来,蛋白质设计领域终于达到了一个阶段,可以利用物理和化学原理来指导新型蛋白质结构的设计。
蛋白质是生命活动的主要承担者,生命进化最终都会体现在蛋白质的功能的多样化上。蛋白质是由20种氨基酸编码的,相比于ATGC的DNA遗传编码信息,氨基酸字母表显示出极大地复杂性和多样性。这就产生了一系列非常有趣的问题:生命为什么会选择20种氨基酸作为标准字母表?更少的氨基酸能否组成或满足一个蛋白质执行功能的基本组成单元?我们能否用更少的氨基酸创造出摆脱当前遗传法则,设计更为独特的生命?
达尔文的断言:“目前关于生命起源的思考纯粹是废话”,现在已经不再成立。通过综合生命起源(OoL)研究,从其开始到最近的发现,重点关注(i)原生物化学合成的原理证明和(ii)古代RNA世界的分子遗迹,我们提供了科学对OoL和RNA世界假说的全面最新描述。基于这些观察,我们巩固了这样的共识:RNA在编码蛋白质和DNA基因组之前演化,因此生物圈从一个RNA核心开始,在RNA转录和DNA复制之前产生了大部分的翻译装置和相关RNA结构。这支持了这样的结论:OoL是一个渐进的化学演化过程,涉及一系列介于原生物化学和最后的普遍共同祖先(LUCA)之间的过渡形式,其中RNA起到了核心作用,沿着这条路径的许多事件及其相对发生顺序是已知的。这一综合性合成的本质还扩展了以前的描述和概念,并应有助于提出关于古代RNA世界和OoL的未来问题和实验。
上海交通大学洪亮团队联合上海人工智能实验室青年研究员谈攀,提出了一个基于蛋白质预训练模型的微调训练方法 FSFP,能在只利用 20 个随机湿实验数据的情况下,高效训练蛋白质预训练模型,且能大幅提高模型的单点突变预测阳性率。
基因表达调控 基因调控是现代分子生物学研究的中心课题之一。因为要了解动植物生长发育规律、形态结构特征及生物学功能,就必须搞清楚基因表达在时间和空间上的调控机制,掌握了它,就等于掌握了一把揭示生物学奥秘的钥匙。 基因表达是一个多阶段进程(multi-level process)。DNA(脱氧核糖核酸)在转录为RNA(核糖核酸)后,RNA需要经过一系列转录后调控(post-transcriptional regulation)而被翻译为功能蛋白。先前来自多家实验室的研究结果清晰地显示,RNA转录水平至多能够解释
Biopython是Python的最大,最受欢迎的生物信息学软件包。它包含许多用于常规生物信息学任务的不同子模块。它由Chapman和Chang开发,主要使用Python编写。它还包含C代码,以优化软件的复杂计算部分。它可以在Windows,Linux,Mac OS X等操作系统上运行。
转录因子(Transcription Factors, TFs)指能够以序列特异性方式结合DNA并且调节转录的蛋白质。转录因子通过识别特定的DNA序列来控制染色质和转录,以形成指导基因组表达的复杂系统。尽管众多科学家对理解转录因子如何控制基因表达有着浓厚的兴趣,精准定位转录因子在基因组上的特异性结合位点,以及转录因子结合后最终如何参与转录调节仍然具有挑战性。
序列比对(sequence alignment),目前是生物信息学的基本研究方法。
比如查看 POU5F1 基因:https://www.ncbi.nlm.nih.gov/gene/5460
在对变异位点如 vcf 文件进行注释之后,注释结果往往会给出变异位点的描述,即该位点是位于哪一个基因的哪一个功能元件具体的哪一个(几个)碱基上发生了什么变化。这往往需要简洁一点的描述格式。标准的变异位点描述的格式为 prefix.position(s)_change 。一般来说,所有的变异应该在 DNA 水平上进行描述,但也可以另外给出RNA或者蛋白质水平的描述。
2022年6月21日,来自小分子变构药物发现公司HotSpot Therapeutics的Michael Schauperl等人在J Chem Inf Model杂志发表文章,探讨了基于AI的蛋白质结构预测方法对药物发现领域的关键贡献,以及所面临的局限性和挑战。
RNA最近几年可火了,RNA小鲜肉F4:miRNA、lncRNA、circRNA、piRNA,它们直接或者间接调节mRNA的翻译、基因转录,这些科研热点也成为做实验发paper的最爱,不管核心还是SCI,不管是CNS还是低分SCI,不管是灌水还是酝酿大招,不带个非编码RNA(noncoding RNA)研究机制在里面都不好意思投稿,不拉上miRNA感觉故事讲不下去,可以编码蛋白、正经干活的mRNA被冷落,大家纷纷开始喜欢遍布细胞各处的监工:非编码RNA(ncRNA)
后AlphaFold2时代,蛋白质结构领域是否会出现学术研究的“军备竞赛”?代码开源,是否为各大药企和AI制药企业创造了一次最佳的超车机会?一系列的问题,从这篇文章里得到解答。
我在生物信息学:全景一文中,阐述了生物信息学的应用领域非常广泛。但是有一点是很关键的,就是细胞内的生命活动都遵从中心法则,生物信息学很多时候就是在中心法则上做文章:
领取专属 10元无门槛券
手把手带您无忧上云