选自berthub.eu 作者:Bert Hubert 机器之心编译 机器之心编辑部 新冠疫苗和「源代码」,有什么关系?来自荷兰的中年程序员,对辉瑞 BNT162b2 疫苗进行了「逆向工程」,让我们看到了计算机科学与生物学之间的有趣联系。 前几天,一位程序员的作品在推特火了。 我们都知道,计算机程序是用代码编写而成的。最底层会有机器代码和汇编语言,诸如 C、Python 之类的高级语言让人们更容易理解。其实,自然界也有源代码,它的形式是「DNA 和 RNA 字符串」,其中就包含着构成生命元素的代码。
今天为大家介绍的是来自Frank DiMaio团队的一篇论文。蛋白质-核糖核酸(RNA)和蛋白质-脱氧核糖核酸(DNA)复合体在生物学中扮演着至关重要的角色。尽管近年来在蛋白质结构预测方面取得了显著进展,但预测没有同源已知复合体的蛋白质-核酸复合体的结构仍是一个基本未解决的问题。在这里,作者将RoseTTAFold机器学习蛋白结构预测方法扩展应用,以预测核酸和蛋白质-核酸复合体。作者开发了一个网络系统,RoseTTAFoldNA,它能够快速生成带有可信度估计的蛋白质-DNA和蛋白质-RNA复合体的三维结构模型。
达尔文的断言:“目前关于生命起源的思考纯粹是废话”,现在已经不再成立。通过综合生命起源(OoL)研究,从其开始到最近的发现,重点关注(i)原生物化学合成的原理证明和(ii)古代RNA世界的分子遗迹,我们提供了科学对OoL和RNA世界假说的全面最新描述。基于这些观察,我们巩固了这样的共识:RNA在编码蛋白质和DNA基因组之前演化,因此生物圈从一个RNA核心开始,在RNA转录和DNA复制之前产生了大部分的翻译装置和相关RNA结构。这支持了这样的结论:OoL是一个渐进的化学演化过程,涉及一系列介于原生物化学和最后的普遍共同祖先(LUCA)之间的过渡形式,其中RNA起到了核心作用,沿着这条路径的许多事件及其相对发生顺序是已知的。这一综合性合成的本质还扩展了以前的描述和概念,并应有助于提出关于古代RNA世界和OoL的未来问题和实验。
早在1954年,Whitfeld等就提出了测定多聚核糖核苷酸链的降解法,该方法利用磷酸单酯酶的脱磷酸作用和高碘酸盐的氧化作用从链末端逐一分离寡核糖核苷酸并测定其种类。目的就是想通过这种一个一个“数”的方法来得到DNA的碱基顺序。
多序列比对是对3条以上(包括3条)DNA,RNA或蛋白序列进行比对。基础仍然是双序列比对。 具体就是对多条序列插入空位,是的插入空位后的全局比对结果有相同的长度,并且结果中不能出现一列全部是空位(也就是每条序列的同一个位置都没用字母)。
当研究一条DNA或蛋白质序列时,主要关注的是其包含的遗传信息;当研究两条或多条DNA或蛋白质序列时,则主要关注不同序列之间的差别与联系。在生物信息学中,对生物大分子的序列比对是非常基本的工作。
A tool for feature extraction from biological sequences
在对变异位点如 vcf 文件进行注释之后,注释结果往往会给出变异位点的描述,即该位点是位于哪一个基因的哪一个功能元件具体的哪一个(几个)碱基上发生了什么变化。这往往需要简洁一点的描述格式。标准的变异位点描述的格式为 prefix.position(s)_change 。一般来说,所有的变异应该在 DNA 水平上进行描述,但也可以另外给出RNA或者蛋白质水平的描述。
传统的药物主要作用于相应的分子靶点 (如激酶、受体、离子通道和转运体等蛋白质靶标)、生物学途径或细胞过程,从而达到治疗疾病的药理作用。小分子化合物和抗体是当前医疗用药的主要形式和药物开发的方式。但是只有 10-14% 的蛋白质可以成为小分子化合物或抗体的作用靶点。这限制了小分子化合物和抗体在药物开发中的可能性。
比如:我只需要长度300bp左右的分子。那么,电泳后,在切胶过程中,只切300bp处的分子即可。
许多生物分子都是大分子,是分子量在5000以上的聚合物,由相对简单的前体组装而成。较短的聚合物称为低聚物。 蛋白质、核酸和多糖是由分子量小于或等于500的单体组成的大分子。大分子的合成是细胞的一项主要耗能活动。 大分子本身可以进一步组装成超分子复合物,形成核糖体等功能单位。 表1-1显示了大肠杆菌细胞中生物分子的主要类别。
简介:生物序列图是可视化蛋白质或核苷酸序列中各种功能元件的基础。 在这里,我们介绍了一个称为IBS的软件包,该软件包可用于以方便和精确的方式表示蛋白质或核苷酸序列。 IBS中提供了多个选项,并且可以按照用户定义的模式对生物序列进行操作,重新着色或重新缩放。 而且,最终可以生成可作为文献发表的图片。
1、基因、DNA、染色体之间的关系:染色体由DNA和蛋白质构成,基因是DNA上具有遗传效应的片段。
今天为大家介绍的是来自Nehad M. Alajez团队的一篇综述。了解非编码RNA(ncRNA)在我们的DNA中扮演的重要角色对于理解癌症的许多方面至关重要。这些ncRNA是一大类分子,它们不参与制造蛋白质,但在控制我们细胞的各种过程中有着重要的作用。这些过程就像规定我们细胞如何运作的规则。这些ncRNA的工作方式之一是与另一种分子,称为RNA结合蛋白(RBP),进行互动,这种互动在不同类型的癌症中都有详细的了解。它们一起可以影响ncRNA和RBP的稳定性,RNA分子的修改方式,它们在细胞中的位置,以及在癌症中发挥作用的许多其他机制。
生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
今天为大家介绍的是来自Maria Duca团队的一篇论文。在化学生物学和药物发现领域,开发创新方法以识别RNA结合物引起了巨大关注。尽管针对细菌核糖体RNA的抗生素已经上市数十年,但对RNA靶向的重新关注反映了人们对更好地理解涉及RNA的复杂细胞内过程的需求。在这个背景下,小分子是用来探索RNA的生物学功能、验证RNA作为治疗靶点的工具,它们最终有可能成为新药。尽管近期取得了进展,但理性设计特定的RNA结合物需要更好地理解与RNA靶标发生的相互作用,以达到期望的生物学响应。在这篇综述中,作者讨论了接近这一未充分探索的化学空间的挑战。
近日,来自普林斯顿大学电气和计算机工程系、斯坦福大学病理系与RVAC Medicines和Zipcode Bio等单位联合开发了一种5′ UTR语言模型(UTR-LM),由王梦迪教授担任通讯作者,褚晏伊博士和于丹博士共同担任第一作者。该模型旨在解码信使RNA(mRNA)分子起始部位的调控区,以预测和改进基因的翻译表达水平。
AlphaFold首先实现了对单体蛋白质预测领域的突破。随后AlphaFold-Multimer将其扩展到蛋白质复合物。而目前,AlphaFold又迎来了一次更新,这个版本称之为AlphaFold-latest。
新的方法,如基因组测序和质谱技术,大大增加了科学家和医疗专业人员获取更精确诊断和增强治疗精准度所需的分子数据的数量。虽然在DNA和RNA的基因测序方面取得了最大的进展,但蛋白质和代谢物高维度测量的医疗应用也在增加。为了适应这些分子“大数据”的数量、速度和多样性,分析工具也得到了改进。机器学习的出现被证明特别有价值。在这些方法中,计算机系统使用大量数据构建预测性统计模型,并通过整合新数据进行迭代改进。深度学习是机器学习的一个强大子集,其中包括使用深度神经网络,已在图像对象识别、语音识别、自动驾驶和虚拟助理等领域具有高知名度的应用。现在,这些方法正在医学领域应用,以提供临床指导性的医疗信息。在这篇综述文章中,作者简要描述了生成高维分子数据的方法,然后重点介绍了机器学习在这些数据的临床应用中扮演的关键角色。
1、原噬菌体(prophage):指的是某些温和噬菌体侵染细菌后,其核酸整合到宿主细菌染色体中。噬菌体所整合的核酸称为原噬菌体。它是繁殖和传递噬菌体本身遗传信息的一重要方式。这时的宿主就称作“溶原性细菌”,这种噬菌体称作温和性噬菌体。以“原噬菌体”的方式嵌存于宿主的DNA中,可随寄主繁殖,延续后代,“和平共处”,一般不引起细胞裂解
在后基因组时代,蛋白质组学在生物医学研究中发挥着重要作用。近日,Nature子刊《Laboratory Investigation》发表了一篇高通量蛋白组的mini-review,概述了高通量蛋白质组学技术、统计和算法的进展。
今天为大家介绍的是来自Stephen Mann, Chunhai Fan和Tom F. A. de Greef团队的一篇综述论文。DNA计算和DNA数据存储是新兴领域,它们为信息技术和诊断学解锁了新的可能性。这些方法利用DNA分子作为计算基质或存储介质,提供了纳米级的紧凑性,并能在非传统介质(包括水溶液、水包油微乳液和自组装的膜化隔室)中操作,这些都是超越传统基于硅的计算系统的应用。为了构建一个能够处理和存储分子信息的功能性DNA计算机,需要持续发展计算和数据存储的策略,并且桥接这两个领域之间的差距。
人类基因组计划是科学史上重要的里程碑事情。该计划的成功,不仅开启了人类了解自身的旅程,而且成为了国际科技合作的典范。对于人类基因组,发现了以下 8 个事实。
大肠杆菌产生3000多种不同的蛋白质;一个人有大约20000个基因,可以产生超过一百万种不同的蛋白质。在这两个物种中,每种类型的蛋白质都有一个独特的氨基酸序列,赋予特定的三维结构。这种结构又赋予了一种独特的功能。
分子生物学涉及生命从组成到活动的所有分子基础,包括DNA、RNA、蛋白质之间的相互作用、它们的生物合成以及这些相互作用的调节。分子生物学也是对复制、转录、翻译和细胞功能过程的分子基础的研究,这是理解该领域的一个很好的起点。
基因预测是指通过对组装的基因组序列进行分析,根据已知生物的基因结构知识或数据库序列来识别其所包含的基因等功能区域。编码基因预测,就是识别基因组序列上所包含的蛋白质编码区域(Coding sequence,CDS),通过在基因组序列上寻找开放阅读框(Open Reading Frame,ORF)实现。
文章导读:近十几年来,随着测序技术的飞速发展与快速应用,生物信息学数据得到大量积累。以往研究多集中于新数据的挖掘,在系统化分析上仍然存在很大不足。接下来很可能会进入“后组学”时代,系统化分析生物数据以解决核心科学问题为大势所趋。本篇文章系统地整理了全球不同生境的微生物组数据,并以此分析基因的生物地理。
还记得电影《黑客帝国》中,当 Neo 释放他的全部力量时,周围的世界以各个方向运行的代码行显示的场景吗?如果你能够以这种方式观察周围的世界,则坐在你旁边的人显示为一个网页,你可以单击右键以检查元素和找到隐藏的源代码。
Biopython是Python的最大,最受欢迎的生物信息学软件包。它包含许多用于常规生物信息学任务的不同子模块。它由Chapman和Chang开发,主要使用Python编写。它还包含C代码,以优化软件的复杂计算部分。它可以在Windows,Linux,Mac OS X等操作系统上运行。
今天给大家介绍的是一篇发表在Nature Communications 的文章“A deep learning approach to programmable RNA switches”,工程RNA元件是能够检测小分子、蛋白质和核酸(合成生物学成分)的可编程工具。增强深度学习的模式识别可以用于预测合成生物学成分。本文用深度神经网络(DNN)来预测合成生物学中的经典核糖开关模型——toehold开关。为了促进DNN训练,作者在体内合成并表征了涵盖23个病毒基因组和906个人类转录因子的91,534个toehold开关的数据集。经过核苷酸序列训练的DNN表现(R 2 = 0.43–0.70)优于前沿的热力学和动力学模型(R 2 = 0.04–0.15),且允许实行人类可理解的注意力可视化(VIS4Map)识别成功和失败的模式。本文研究表明深度学习方法可用于RNA合成生物学中的功能预测。
CY 为花菁 (Cyanine) 的缩写,经典的菁染料含有两个含氮杂环,分子内部含有由甲川基 (CH)n 组成的共轭链,n 可为奇数或偶数。吸光度和荧光波长可通过选择聚次甲基桥的长度来控制:越长的花菁素具有较高的吸光度和发射波长 (图 1 所示)。根据链中的碳原子数,菁类由甲川基被分为一甲基 (CY1,n=0)、三甲基 (CY3,n=1)、五甲基 (CY5,n=2) 和七甲基 (CY7,n=3)。
mRNA作为一种全新的疫苗类型,能够快速大规模生产, 因此成为科学家们攻克的主阵地之一。
今天为大家介绍的是来Robert T. Batey 和Matthew D. Disney的一篇关于靶向RNA小分子的论文。RNA在人类生物学中是3D形态,赋予不同的功能角色,并在疾病中导致功能障碍。目前正在积极追求利用小分子治疗性地靶向RNA结构的方法,其中包括预测进化保守的RNA结构的计算工具的发展,以及扩展作用方式并促进与细胞机制的相互作用的策略。现有的RNA靶向小分子使用一系列机制,包括通过与细胞蛋白作为分子黏合剂来定向剪接,抑制难以药物化的蛋白质的翻译和停用非编码RNA中的功能结构。在这里,作者描述了识别、验证和优化靶向功能转录组的小分子的策略,为将这些药物推进到未来十年制定了路线图。
如何找到somatic的突变信息的maf文件,仍然是从UCSC的XENA浏览器里面选择NSCLC的里面的LUAD数据集即可,这个是网页里面的鼠标点击操作。值得注意的是网页里面关于同一个癌症有两个跳转链接哦(其中一个带有GDC的前缀):
蛋白质结构预测是生物化学中最重要的挑战之一。高精度的蛋白质结构对于药物发现至关重要。蛋白质结构预测始于20世纪50年代,随着计算方法和对蛋白质结构的认识不断增长。最初主要采用基于物理的方法和理论模型。当时的计算能力有限,这些模型往往难以成功地预测大多数蛋白质的结构。蛋白质结构模型的下一个发展阶段是同源建模,出现在20世纪70年代。这些模型依赖于同源序列具有相似结构的原理。通过将目标序列与已知结构的模板序列进行多序列比对,首次成功地确定了以前未解决的序列的结构。然而,这些模型的分辨率仍然有限。20世纪80年代出现了从头开始的方法,带来了下一个分辨率提升。这些方法应用了基于物理的技术和优化算法。结合计算技术的进步,这导致了蛋白质结构预测的显著改进。为了对所有这些新方法进行基准测试,从90年代初开始了蛋白质结构预测技术评估的关键阶段(CASP)系列活动。近年来,机器学习和深度学习技术已经越来越多地集成到蛋白质结构预测方法中,尤其是自2007年以来使用长短期记忆(LSTM)以来。
DeepDISOBind: accurate prediction of RNA-, DNA- and protein-binding intrinsically disordered residues with deep multi-task learning 论文摘要:
根据NIH人类基因组研究所的解释,宏基因组学(Metagenomics,又译宏基因组学)研究从大宗样品中的所有生物体(通常是微生物)中分离和分析的整个核苷酸序列的结构和功能,通常用于研究特定的微生物群落,比如居住在人类皮肤上、土壤中或水样中的微生物身上的蛋白质。
表示蛋白质氨基酸序列的简单字母串包含惊人的丰富信息,通过将生物信息学工具应用于基因组和蛋白质序列数据,可以解锁这些信息。
抗生素耐药性,是人类社会中最严重的医疗问题之一,目前每年在欧洲造成超过2.5万人死亡,在美国造成3.5万人死亡。几十年来,具有抗菌素耐药性的微生物数量一直在增加。这些微生物引起的感染缺乏有效的治疗方案。在过去几十年里,人们发现抗生素缺乏,严重影响了经济和人类的福祉。因此,当前重要的是,人类必须开发出能够对抗耐多药微生物,并减缓抗生素耐药性的进化和传播的抗菌素。
我们在生信菜鸟团公众号举办的每周文献精选活动,菜鸟团一周文献推荐(No.20)广受好评的是大神级的RNA-Seq综述,题目:RNA sequencing: the teenage years ,所以在我们生信技能树VIP交流群也得到了关注。
有许多基于测序的方法来了解复杂宏基因组,从全样本鸟枪法测序到靶向扩增。虽然靶向方法在低测序深度提供有价值的数据,但它们受引物设计和PCR限制。全样本鸟枪法通常使用短读长测序,这导致数据处理困难。例如,长度小于500bp的读数很少覆盖完整的感兴趣的基因或区域,所以将需要组装。这不仅引入了来自不同社区成员的序列不正确地拼接的可能性,还需要高覆盖深度。因此,罕见的社区成员可能不会在结果集合中被表示。、
几年前,甚至研究人员也不愿使用DNA来存储数据,因为这看起来过于科幻,并没有任何实用价值。今天,我们可以使用正确的软件和生物化学模块扩展PostgreSQL,并在DNA上运行SQL。
众所周知,对于VCF文件的注释常用的有VEP、SnpEff、ANNOVAR等,软件各有优势,选择哪个工具通常取决于具体的分析需求、数据类型和用户的技术背景。例如,VEP因其提供的丰富注释信息和易用性而被广泛使用。今天就先来详细了解一下VEP的注释结果。
蛋白质是生命活动的基本单位,研究位于编码区的基因组变异,最重要的一点就是分析该变异是否会影响蛋白质的结构与功能。之前的文章中介绍了SIFT软件,本篇介绍另外一款软件PolyPhen-2。
行早 发自 凹非寺 量子位 | 公众号 QbitAI 自从新冠大流行以来,病毒的变异和进化就没有停止过:德尔塔,拉姆达,奥密克戎……在和人类的斗争中也一直抢先一步。 在不断研究病毒进化过程时,有没有一种方法能让我们预判病毒的进化,找到效用更持久的疫苗呢? 还真有,在进化生物学领域,有一种叫做适应度地形(Fitness Landscape)的生物进化地形图,让科研人员可以用一种类似梯度下降的方法找到病毒进化的方向。 △图注:模拟病毒进化路线 适应度地形图让病毒进化有迹可循 那这个适应度地形图是什么呢? 简
本文介绍由日本早稻田大学、计算生物大数据开放创新实验室、日本医学院的Michiaki Hamada教授团队发表在Nature Computational Science的研究成果。作者开发了一种变分自编码器模型(RaptGen)用于生成核酸适配体。RaptGen利用一个轮廓隐藏的马尔可夫(HMM)模型解码器来有效地表示motif序列。作者证明了RaptGen在motif信息的基础上将模拟序列数据嵌入到低维潜在空间中,并使用两个独立的SELEX数据集进行了序列嵌入。RaptGen成功地从潜在空间生成了适配体,模型还可以通过一个较短的学习模型生成一个截断的适配体。并且证明了RaptGen可以根据贝叶斯优化应用于活性引导的适配体生成。
所有生物大分子的热力学稳定性远低于其单体亚基,但它们在动力学上是稳定的:它们的非催化分解发生得很慢(几年而不是几秒钟),以至于在对生物体至关重要的时间尺度上,这些分子是稳定的。事实上,细胞中的每一个化学反应都以很快的速度发生,这仅仅是因为酶(enzymes)的存在——生物催化剂,与所有其他催化剂一样,极大地提高了特定化学反应的速度,而不会在过程中被消耗。
近些年来,过去被视作冗余垃圾的Noncoding RNAs被发现在基因表达调控中发挥了重要作用
亚基大小不同的rRNA都通过从共同的前RNA切割下来而释放,而5S rRNA是分开转录的。
领取专属 10元无门槛券
手把手带您无忧上云