首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一种从生物序列中提取特征的工具

简读分享 | 乔剑博 编辑 | 龙文韬 论文题目 A tool for feature extraction from biological sequences 论文摘要 测序技术的进步产生了大量的生物数据...然而,这些方法只有在序列换为特征向量时才实用。许多工具都针对此任务,包括 iLearnPlus,这是一种基于 Python 的工具,支持丰富的功能集。...在本文中,作者提出了一种从生物序列(即 DNA、RNA 和蛋白质)中提取特征的整体工具。这些特征是预测输入序列的属性、结构或功能的机器学习模型的输入。...而且,作者的工具基于 R 语言,它为生物信息学家序列换为特征向量提供了替代方案。作者将作者工具的转换时间与 iLearnPlus 的转换时间进行了比较:作者转换序列的速度要快得多。...作者核苷酸的转化速度中位数提高了 2.8 倍,而对于大序列,作者的表现优于 iLearnPlus 的中位数 6.3 倍。最后,在氨基酸方面,作者的工具实现了 23.9 倍的中位加速。

34410

(宏)基因组编码基因预测

基于序列相似性的搜索方法思路是待预测的基因组序列在6种模式的阅读框中进行翻译并与蛋白质数据库中的序列进行比对,如blastx,或者对EST数据库中同一生物的cDNA序列进行比对分析,如blastn,然后确定基因的数目和对应的...GeneMark程序基于编码区和非编码去的马尔科夫模型,并采用滑动窗口的方法,预测一条DNA序列中潜在的蛋白质编码区。该方法对编码可能性之间的局部变化非常敏感,但能生成一幅展示编码可能性分布的细节图。...GeneMark与GeneMark.hmm程序都需要利用序列中核酸使用的频率矩阵作为基础,来预测序列中潜在的编码区域,这些矩阵都是物种特异的。...MetaGeneMark利用GeneMark.hmm主程序(gmhmmp)基于自带的核苷酸频率矩阵模型MetaGeneMark_v1.mod进行基因预测,其范围是范围是细菌和古菌。...如果使用的话,必须给出一个包含RBS模型的文件 -s 预测基因的链,d为正向,r为反向互补链,默认为'.'

2.6K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Biopython | 介绍和安装

    它由Chapman和Chang开发,主要使用Python编写。它还包含C代码,以优化软件的复杂计算部分。它可以在Windows,Linux,Mac OS X等操作系统上运行。...基本上,Biopython是python模块的集合,这些模块提供处理DNA,RNA和蛋白质序列操作的功能,例如DNA字符串的反向互补,寻找蛋白质序列中的基序等。...处理序列格式的选项。 管理蛋白质结构的工具。 BioSQL-SQL表的标准集合,用于存储序列以及功能和注释。...支持在Medline应用程序使用的日记数据。 支持BioSQL数据库,该数据库是所有生物信息学项目中广泛使用的标准数据库。...通过提供生物信息学文件解析为特定格式的记录对象或序列加特征的通用类的模块,来支持解析器开发。 清除基于食谱样式的文档。 (4)..

    1.2K10

    Methods | RoseTTAFoldNA准确预测蛋白质-核酸复合体

    RFNA基于RoseTTAFold的三轨架构,能够同时优化生物分子系统的三种表示:序列(1D,一维),残基对间距离(2D,二维)以及笛卡尔坐标(3D,三维)。...对于RFNA,还包括了对每个核苷酸的表示,使用一个坐标框架描述磷酸基团的位置和方向,并利用10个扭转角来构建核苷酸中的所有原子。...训练过程中,模型使用了基于序列相似性搜索生成的多重序列比对(MSAs),以优化网络参数。...优化过程包括最小化损失函数,该函数是对所有蛋白质和核酸原子的全原子框架对齐点误差(FAPE)损失的泛化,以及评估遮蔽序列片段恢复、残基间(包括氨基酸和核苷酸)相互作用几何形状和误差预测精度的额外贡献。...通过首先生成独立组件的模型然后再将它们刚性地对接的方法无法预测这种效果。 参考资料 Baek, M., McHugh, R., Anishchenko, I. et al.

    54510

    Nat. Commun. | 深度学习探索可编程RNA开关

    经过核苷酸序列训练的DNN表现(R 2  = 0.43–0.70)优于前沿的热力学和动力学模型(R 2 = 0.04–0.15),且允许实行人类可理解的注意力可视化(VIS4Map)识别成功和失败的模式...1 背景 具有特定生物学功能的工程RNA分子在合成生物学中发挥着重要作用,特别是作为小分子、蛋白质和核酸的可编程反应元件;例如作为核糖开关、核糖调节因子和核酶,且在体内和体外都可应用。...Toehold开关是一类多功能原核生物核糖调节剂,可以通过完全可编程的反式RNA触发序列的存在诱导,代表合成生物学中的基准RNA元件;此RNA合成生物学组件功能多样,既可以在体内作为遗传线路组件,也能作为体外无细胞蛋白质合成...选择RNA工具后,进行文库合成和表征,并使用深度神经网络(DNN)进行分析,以提供功能预测和生物学见解(图1)。作者从一个合成的寡核苷酸库中生成了两个用于ON和OFF状态的构建文库。...当直接根据核苷酸序列而不是热力学特征来训练模型时,即使是对于外部数据集,性能也有所改善,这表现了使用深度学习和高通量数据集对RNA合成生物学工具进行建模的价值,消除了目前对机械理性参数的假设。 ?

    51450

    NAR|一个发现了复杂的生物学规则来破译RNA蛋白质编码潜力的深度递归神经网络

    一、研究背景 现有的长RNA分类为蛋白质编码RNA(mRNAs)或长非编码RNA(IncRNAs)的最先进方法依赖于人工设计的特征,如覆盖范围和预测开放阅读框架(ORF)。...这些特征使这些模型容易把编码小蛋白质的mRNAs和长的,未翻译的ORFs的IncRNAs错分。核苷酸六聚体频率是另一个常用的特征,但虽然它可以捕获密码子对的频率,但它不能从更大的序列上下文中获益。...研究人员最近开始RNN应用于生物序列,用于识别剪接位点、微RNA靶位点、DNA结合位点和甲基化预测等。...本论文使用第release25版本,其中10%的转录本缺乏起始密码子,25%的转录本在注释的CDS中缺乏终止密码子。对于蛋白质编码潜力评估具有挑战性。...此外,也进一步确定了基于深度RNN的方法特别适用于涉及长生物序列建模的任务。 ? 图6. 对于ENST00000449283.1 的编码轨迹 ? 图7.对同一录本的协同评分变化的配对突变热图 ?

    57010

    常用分子生物学实验技术–整理「建议收藏」

    常用的分子生物学实验技术: 离心技术:   是分离纯化蛋白质、酶、核酸(DNA、RNA)、细胞的最常用方法之一。...可用于分离不同分子量的生物大分子。     1.蛋白质的电泳:       用途:蛋白质的定量。     2.核酸的电泳:       用途:用于核酸的分离、鉴定、纯化、回收。         ...在实际操作中,常使用标记过的已知序列的特定核苷酸片段(即核酸探针)与待测样品进行杂交,以确定特定核酸序列是否存在。   ...(4)人工合成的寡核苷酸探针:如果只知道蛋白质的氨基酸排列顺序,而不知其编码基因的碱基顺序,可以利用人工合成的寡核苷酸探针来探查未知基因的序列。   ...反应体系温度升高到72摄氏度,此时DNA聚合酶将以单链DNA为模板,核苷酸逐个添加到引物的3`端,使新链不断延长,直至合成结束。   3.

    1.7K12

    人类基因组计划发现的8大真相

    18500 个蛋白质编码基因)这些更简单的生物的基因数大致相同。...这些基因与细菌的序列同源,但与其他脊椎动物与非脊椎动物没有同源性。近些年的研究重点已经从通过横向转移获取的基因转到大量的寄居在人体内的细菌、古细菌和病毒的基因,被称为人体微生物学。 4....这些非编码的基因组区域大部分被重复的 DNA 元件所占据,如长散在序列(LINEs,20%)、短散在序列(SINEs,13%)、长末端重复(LTR)反转录转座子(8%)和 DNA 转座子(3%)。...一是罕见的串联扩增(局部区域内一段序列的多次复制);二是由处理后的 mRNA 通过逆转录转座引起扩增,在一个或多个位点产生无内含子的旁系同源基因;三是最普遍的,染色体的大片段向另一位点移时发生的片段扩增...人类基因组中含有大量单核苷酸多态性(SNP)位点。SNP 是单个核苷酸的变异,约每 100 ~ 300bp 会有一个。

    15110

    ACS Nano | 基于计算机的抗菌肽发现框架

    序列比对是比较生物序列的常用方法,也是在包含数千种蛋白质的大型数据库中,搜索相似序列的最简单方法。有两种主要的方法来搜索AMP模式:隐马尔科夫模型(profile-HMM)和正则表达式(REGEX)。...其采用了两种不同的预测策略:序列大小变化和序列顺序。一旦选择了序列顺序,大小就不能修改,根据每个位置的氨基酸残基频率进行预测。否则,如果序列大小变化是一个选项,序列将被转换为描述符。...线程方法使用模板从查询序列中预测三维结构,而从头建模,也被称为从头建模或自由建模,利用设计的能量函数和广义的构象概率来指导构象搜索,预测一个没有先前结构信息的蛋白质结构。...Wolfe等人使用ML预测了细胞穿透多肽,作为这些寡核苷酸的有效传递手段。成了64个寡核苷酸-肽缀合物,并将活性数据用于拟合随机决策森林分类器,以预测给定肽的共价结合是否会增强化合物的活性。...描述符转换为二维图像进行进一步处理;然后,二维图像被用作前馈神经网络的输入层。与缺乏自组织映射的前馈网络分类器相比,所提出的混合模型提高了分类精度和具有更高的预测鲁棒性。

    1.1K30

    . | 5′ UTR语言模型:开辟蛋白质表达预测与优化的新途径

    e,f,对8个合成的50 bp核苷酸的5' UTR 的文库的各种方法的评估。g,h,使用独立测试评估各种方法。...d,对于 TE 预测,UTR-LM 模型优于 Cao-RF 高达 5%,并且在 Spearman R 方面优于 Optimus 高达 27%。...图5表明,新设计的5′ UTR能够有效提高蛋白质的生产水平,证明了模型在生物技术和治疗领域的应用潜力。 图5. 通过湿实验设计并验证了包含211个具有高TE的5' UTR库。...模型的生物学可解释性 在这项研究中,通过一系列深入分析, UTR-LM展示了其在识别序列特征、定位功能影响区域以及发现功能性基序方面的强大能力。...首先,通过Sequence Logo揭示了五个物种5′ UTR区域的核苷酸组成和分布独特性,高亮了物种间序列水平的差异。

    50210

    BioRxiv|药物设计和再利用的sequence-to-drug范式

    典型的基于蛋白质结构的药物设计(SBDD)项目从蛋白质序列开始,通过结构生物学或结构预测构建三维结构,识别结合口袋(正构位点或变构位点),最后通过虚拟筛选或从头设计发现活性调节剂。...图1a 基于靶点的药物设计的传统管道和序列到药物的范式 端到端可微分深度学习彻底改变了计算机视觉和语音识别,通过复杂管线的所有组件替换为可微分基元,从而实现从输入到输出的联合优化。...许多深度学习模型已提出使用蛋白质序列作为输入,但没有一个彻底验证了序列到药物范式的概念。在这项工作中,作者首次通过三个阶段解决了这个问题(图1b)。...作者选择阿司匹林作为阴性对照,发现其ΔR的模式与多拉韦林的ΔR模式有显着差异。耐药性分析验证了TransformerCPI2.0对蛋白质的单点突变敏感。...一方面,可用基因组测序技术和注释技术的爆炸式增长已经彻底改变了生物信息学,序列到药物范式同样通过结合更丰富的多序列比对或功能注释信息而迅速发展;另一方面,作者可以进行更全面的蛋白质组范围的虚拟筛选,加速发现针对新颖但具有挑战性的生物学靶点的新

    45910

    Nature子刊:高通量蛋白质组学方法学综述

    尽管2D-PAGE传统上被用作蛋白质组学研究的标准程序,但基于凝胶的技术往往是劳动密集型和耗时的,因此不适合于高通量蛋白质组学。...在这种方法中,可以对肿瘤组织进行显微切割,以最大限度地提高来自肿瘤组织而不是周围良性组织的蛋白质的比例。然后,抗体-抗原反应的免疫荧光信号转换为数值数据,作为蛋白质表达的数值。...还有一种特殊的聚类分析,称为时间序列表达的网格分析(GATE),用于根据时间序列分析和可视化高维生物分子。...Ingenuity通路分析(IPA)是一种基于web的软件应用程序,用于使用表达式数据集进行因果分析。...单细胞蛋白组学SCoPE2和Scp是用于分析多重单细胞蛋白质组数据的R包,而SCeptre是它们在Python中实现的对应软件包。

    1.6K22

    使用IBS绘制蛋白质核苷酸序列

    简介:生物序列图是可视化蛋白质核苷酸序列中各种功能元件的基础。 在这里,我们介绍了一个称为IBS的软件包,该软件包可用于以方便和精确的方式表示蛋白质核苷酸序列。...IBS中提供了多个选项,并且可以按照用户定义的模式对生物序列进行操作,重新着色或重新缩放。 而且,最终可以生成可作为文献发表的图片。...IBS(Illustrator for Biological Sequences)是一个专业的基因及蛋白序列图绘制软件,既可以画蛋白质序列,也可以画可视化核酸序列,同时还拥有多种模板与推荐配色。...该软件的制作团队为华中科技大学薛宇教授的团队,如果大家发文章使用了这个软件,请记得引用他们的文章。 第一步:首先查找相关基因或者蛋白质序列结构,这里我用的是ERBB2蛋白结构域信息。 ?...首先根据上面得到的信息,绘制序列长度即可。 ? 第四步:新增一个结构域,设置其起始点,颜色等信息。 ? ? ?

    1.3K30

    使用机器学习和Python揭开DNA测序神秘面纱

    Biopython是python模块的集合,这些模块提供处理DNA,RNA和蛋白质序列操作的功能,例如DNA字符串的反向互补,寻找蛋白质序列中的基序列等。...在此,首先使用2位编码方案DNA序列换为二进制序列,该方案T映射为00,C映射为01,A映射为10,G映射为11。...现在我们可以轻松加载和操作生物序列数据,那么怎么数据用于机器学习或深度学习? 由于机器学习或深度学习模型要求输入必须是特征矩阵或数字值,但目前我们仍然以字符或字符串格式存储数据。...基因组与序列语言和书是相似的,子序列(基因和基因家族)是句子和章节,k-mers和肽是单词,核苷酸碱基和氨基酸是字母。自然语言处理(NLP)也应采用和DNA及蛋白质序列相似的处理方式是有理由的。...人类DNA序列中长度为6的k-mer字 现在,我们需要将每个基因的k-mers列表转换为可用于创建单词袋模型的字符串句子。我们创建一个目标变量y来保存类标签。 对黑猩猩和狗也进行一样的操作。

    2K21

    生物信息学入门必须了解的名词

    包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。...蛋白质组学(proteomics):阐明生物体各种生物基因组在细胞中表达的全部蛋白质的表达模式及功能模式的学科。包括鉴定蛋白质的表达、存在方式(修饰形式)、结构、功能和相互作用等。...处理组与参考基因组序列进行比对,可发现甲基化位点并对甲基化情况进行定量分析的方法叫做全基因组甲基化测序。...N50:N50是基因组拼接之后一个评价指标,拼接得到的所有的序列,根据序列大小从大到小进行排序,然后逐步开始累加,当加和长度超过总长一半时,加入的序列长度即为N50长度。...SwissProt:SwissProt数据库是经过注释的蛋白序列数据库,由欧洲生物信息学研究所(EBI)维护。每个条目包括蛋白质序列、引用文献、分类学信息和注释等。

    2.8K63

    科普好文 | 自然界也有源代码:一位程序员「逆向工程」了辉瑞新冠疫苗

    来自荷兰的中年程序员,对辉瑞 BNT162b2 疫苗进行了「逆向工程」,让我们看到了计算机科学与生物学之间的有趣联系。 前几天,一位程序员的作品在推特火了。...我们都知道,计算机程序是用代码编写而成的。最底层会有机器代码和汇编语言,诸如 C、Python 之类的高级语言让人们更容易理解。...其实,自然界也有源代码,它的形式是「DNA 和 RNA 字符串」,其中就包含着构成生命元素的代码。 在这篇文章中,作者 Bert Hubert 介绍了计算机和生物学之间的有趣联系。...在疫苗生产期间,就有人将此代码上传到了 DNA 打印机,然后磁盘上的字节转换为实际的 DNA 分子。...基本背景介绍 DNA 是数字代码,与使用 0 和 1 的计算机不同,生物学领域使用 A、C、G 和 U / T(「核苷酸」、「核苷」或「碱基」)。

    35020

    变异位点的描述格式--肿瘤基因组测序数据分析专栏

    在 DNA 和 RNA 水平上,使用 > 表示替换。c.4375C>T 表示 c.4375 位置 的 C 核苷酸变为 T 删除:DNA 上的一个或多个核苷酸缺失(删除)。使用 del 表示删除。...删除/插入(indel):DNA 中的一个或多个核苷酸丢失并被几个新核苷酸取代。使用 delins 表示删除/插入。...用于编码 DNA 参考序列 g. 用于线性基因组参考序列 m. 用于线粒体 DNA 参考序列 n. 用于非编码 DNA 参考序列 o. 用于循环基因组参考序列 p. 用于蛋白质参考序列 r....:g.47643464_47643465ins[NC_000022.10:35788169_35788352] : (冒号)用于参考序列文件标识符(accession.version_number)...不在蛋白质水平上使用,通常被描述为 delins fs 表示移位;p.Arg456GlyfsTer17 ext 表示扩展;p.Met1ext-5

    1.3K31

    【Briefings in Bioinformatics】四篇好文简读-专题20

    为了提高我们对这些分子相互作用的理解和建模能力,文章使用了一组精心设计的370个蛋白质-碳水化合物复合物与实验结构和生物物理数据,以便训练和验证一个新的工具,即截断扫描矩阵(CSM)-碳水化合物,使用机器学习算法准确预测其绑定亲和力和排名对接姿态作为评分函数...但大多数经典的MSA算法难以处理大规模的多序列,特别是长序列。因此,最近的一些调整器采用了一种有效的分治策略,序列分解为几个短子序列。...选择公共片段(即锚点)进行序列分割是非常关键的,因为它直接影响精度和时间成本。因此文章提出了一种新的算法FMAlign,以提高多核苷酸序列比对的性能。...首先使用FM-index以较低的成本提取较长的公共段,而不是使用占用空间的哈希表。在找到较长的最优公共段后,再将序列除以较长的公共段。...实验表明,该方法在运行时间上优于现有方法,对长序列集具有较高的准确率。结果表明,该方法在序列长度和序列数方面均适用于大规模的核苷酸序列

    32920

    癌症中的长非编码RNA与RNA结合蛋白的相互作用

    由于其长度超过200个核苷酸且缺乏蛋白质编码潜能,lncRNA一直是研究人员特别关注的对象,因为出现了它们作为多维度调控元素的证据。...识别LPIs是理解它们在各种生物过程中的作用的第一步。图1A-D显示了用于识别LPIs的不同技术的示意图。用于识别LPIs的大多数实验技术使用RIP(RNA免疫沉淀)法进行,但它也有其局限性。...与RIP类似,使用针对感兴趣蛋白质的特定抗体来拉下RBP和目标RNA复合物。但是,CLIP会拉下已经与RNA进行UV交联的蛋白质。...现在可以在RNA分离和反转录之后使用下一代测序平台,测序可以识别跨越整个转录组的蛋白质交联位点。...FUBP1是一个主要的调控因子,参与了基因的转录、剪接和翻译等生物学过程。LCAT3还能将FUBP1引导到MYC基因的序列上(图2b),从而促进MYC基因的转录。

    32410

    基础生物信息学

    而现在,获取基因序列简单又便宜,以前所未有的速度生成数据。生物信息学序列分析是了解这些序列的核心,这本书简单介绍了DNA, RNA和蛋白质序列的研究。...有没有DNA和蛋白质序列文件之类的文本呢?如果有,它应以某种方式呈现以便解释或容易输入程序进行分析。或者把数据图形化展示了多少信息?...这种数据降维形式非常强大,如果没有它,我们盯着一页一页的序列从字面上看,看不到有结论的图像。...一些分析是手动的,范围从查看单个核苷酸或氨基酸,到序列提交给一个程序,这个程序序列转换成另一种形式。...生物信息学是最早接受科学技术的领域之一。网页是传播信息的工具,本书中我们将使用许多网页。 最后,生物信息学活动通常涉及大量数据。即使如果您只关注一个基因,那么仍然会有大量的数据连接到该单个序列

    53360
    领券