开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >进化树构建的基本过程（上）

进化树构建的基本过程（上）

作者头像

医学数据库百科

发布于 2020-06-01 09:02:08

发布于 2020-06-01 09:02:08

2.8K0

举报

文章被收录于专栏：医学数据库百科医学数据库百科

通过进化树，我们可以得到一些非常有价值的信息，比如说某几个物种在同一分支上，说明他们有着较近的亲缘关系，更有可能他们之间存在着祖先与进化的关系。比如最近来势汹汹的新冠肺炎，下图为从网上找的冠状病毒遗传进化分析，其中图中2019-nCoV即为本次新型冠状病毒。

今天我们就来简单介绍一下进化树构建的基本过程。这次我们以YTHDF家族和YTHDC家族作为例子来进行演示。

PART1

准备

1. 基因蛋白序列

打开NCBI gene数据库（https://www.ncbi.nlm.nih.gov/gene/），将所要查询的基因名称输进去即可，例如分析人YTH家族，将该家族的5个基因（YTHDF1/2/3、YTHDC1/2）依次输进基因栏。

选择对应物种，例如此处分析人，选择Homo sapiens，

选择要分析的序列，本文分析蛋白序列，点击NP链接，若要分析mRNA序列，点NM即可。

转进来后点击FASTA后即可看到该基因的蛋白序列，通过右上方send to发送至本地保存为fasta格式。

然后将5个基因蛋白序列合在一个fasta格式文件。具体合并就是把文件用文本打开，然后粘贴到一起就行。注意：所有序列的方向都要保持一致 ( 5’-3’)。序列工作就做好啦

另：Uniprot数据库（http://www.uniprot.org/）也可获取蛋白序列哦，步骤与此类似，自行探索即可

2.下载MEGA软件

官网（https://www.megasoftware.net/）下载即可，有多种版本可供下载，由于本人电脑上为MEGA-X版本，下面就此版本介绍具体用法。

PART2

序列比对

做系统进化树之前要做多序列比对，将比对结果提交给MEGA建树。打开MEGA，点击File→Open A File/Session…→找到自己要比对的序列，打开

弹出对话框，选Align

然后5条要比对的序列就进来啦！

接下来我们进行序列比对，在Alignment里面有Alignment by ClustalW和Muscle两个选项。其中ClustalWClustalW是现在用的最广和最经典的多序列比对软件，基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,然后用NJ或者UPGMA方法构建Binary进化树作为guide tree,最后用progressive的方法根据guide tree逐步添加序列进行比对,一直到所有序列都比对好。

Muscle速度快，用于序列多的时候进行的比对。

这里我们选择ClustalW：

弹出对话框选OK，之后弹出多序列比对参数设置窗口。由于MEGA的参数都是经过考量的，所以当看不懂时默认就好。运行后下面就是比对完的结果啦！

因为不同序列的碱基、长度不同，所以为了最大的寻找相似碱基而插入空位，其中-------表示序列内插入的空位。

可以将比对结果保存下来。

保存文件格式选择.meg

双击刚才建好的.meg文件，文件就直接导入MEGA啦，点击

，会出现“Sequence Data Explorer”窗口，最上面一行是consensus sequence，也就是一列里出现次数最多的字母。

到这里基本比对就做完了，但是要怎么进行进化分析，明天再继续介绍哦！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-06-01，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自数据库百科微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

QQ 25年技术巡礼丨技术探索下的清新设计，打造轻盈简约的QQ9

【万字长文】论如何构建一个资金账户系统 | 技术创作特训营第一期

因为一部遮天，我用三种语言实现了腾讯国漫评分系统

得物 Redis 设计与实践

【万字长文】K8s部署前后端分离web应用避坑指南之一：从源代码到docker compose到k8s云集群（macOS-2023版）

穿越时空：2023年前端技术盘点与2024年技术展望

构建系统发育树

编程算法网络安全 access

构建系统发育树属于群体遗传学分析范畴，随着时间和地理位置的变化，新冠病毒经过多次迭代，在基因组上会累积不同的突变，已经与祖先产生明显的不同。通过对多个序列进行系统发育分析，不仅可以厘清不同物种之间的亲缘关系，而且可以重塑新冠病毒的演化过程，具有重要的现实意义。例如某地新发疫情，可以对样本快速测序，构建全基因组序列，然后对其进行系统发育分析，快速定位到系统发育树中，可以快速鉴定新发菌株的亲缘关系，对于疫情防控溯源具有重要的指导作用。

生信喵实验柴

2022/04/07

3.8K1

生物信息之多序列比对，进化树分析，保守位点分析

4、如图所示可以下载到fasta格式的序列，注意这里下载的是基因或者蛋白质的全序列

白墨石

2021/01/13

6.6K0

生物信息之多序列比对，进化树分析，保守位点分析

对新冠病毒核酸序列构建系统进化树

虽然没有phylip格式，但是如果你理解了格式，就知道，其实无非就是软件开发者定义好的规则。我以前分享过HPV的病毒进化树，可以把这个当做是学徒作业了。

生信技能树

2020/03/10

2.1K0

对新冠病毒核酸序列构建系统进化树

基因家族分析之获取全部cDNA碱基序列构建进化树

数据库 sql https 网络安全

现在让我们看第一个教程，以趋化因子基因家族为背景来获取序列进行多序列比对后绘制系统发育树。

生信技能树

2019/10/09

1.7K0

基因家族分析之获取全部cDNA碱基序列构建进化树

进化树构建的基本过程（下）

bootstrap bi find image models

昨天我们讲解了进化树构建的数据下载以及利用mega进行数据的比对：进化树构建的基本过程（上）。今天我们就来讲解一下如何利用利用mega构建简单的进化树。

医学数据库百科

2020/06/02

2.9K0

数据分析-启动子进化分析

count na sequence

启动子是RNA 聚合酶识别、结合和开始转录的一段DNA 序列，它含有RNA 聚合酶特异性结合和转录起始所需的保守序列，多数位于结构基因转录起始点的上游,启动子本身不被转录。但有一些启动子(如tRNA启动子)位于转录起始点的下游,这些DNA序列可以被转录。启动子的特性最初是通过能增加或降低基因转录速率的突变而鉴定的。启动子一般位于转录起始位点的上游。启动子位于结构基因5'端上游的DNA序列，能活化RNA聚合酶，使之与模板DNA准确的结合并具有转录起始的特异性。启动子本身并不控制基因活动，而是通过与称为转录(transcription)因子的这种蛋白质(proteins)结合而控制基因活动的。转录因子就像一面"旗子"，指挥着酶(enzymes)(RNA聚合酶polymerases) 的活动。

小胡子刺猬的生信学习123

2022/06/28

2.8K0

phyml:基于最大似然法构建进化树

branch data input model tree

这两种格式的文件都可以有 muscle 产生，代码如下 phylip interleaved

生信修炼手册

2020/05/08

2.3K0

phyml:基于最大似然法构建进化树

一文学会从测序数据到构建系统发育树：超全面的详细步骤与软件指南

系统工具模型软件数据

在科研工作里，构建与美化进化树是必须掌握的技能之一。这篇文章汇总和整理了之前的相关内容，依照文章中的脉络，基本上能够在大多数情形下满足构建进化树的需求。本文将从测序数据到构建系统发育树需要经过这4个步骤进行阐述：①数据收集与预处理②多序列比对③选择适合的建树方法④系统发育树的评估与美化。

简说基因

2025/01/22

7820

一文学会从测序数据到构建系统发育树：超全面的详细步骤与软件指南

MEGA | 多序列比对及系统发育树的构建

linux alignment data edit sequence

MEGA是一个用于多序列比对和可视化、以及构建系统发育树的免费程序。自1993年发布以来，MEGA共更新9个版本 (没有第八、九版)，今年发布的MEGA 11为处理更大的数据集进行了优化。

生信宝典

2022/01/19

10.9K0

MEGA | 多序列比对及系统发育树的构建

特别栏目之新型冠状病毒（2019-nCoV）序列分析

https http windows 网络安全

Clustalw http://www.clustal.org/download/

一粒沙

2020/02/25

1.3K0

细菌全基因组序列怎么构建系统进化树啊：详细思路解读，一文掌握

数据系统工具论文软件

最近我们学习系统进化树，就把相关论文/文档看一看，软件用一用，逐步就会对这一主题有所了解。其中碰到的问题，再深入去学习。

简说基因

2024/12/23

4860

细菌全基因组序列怎么构建系统进化树啊：详细思路解读，一文掌握

文献笔记五十六：武汉新型冠状病毒的进化分析

论文中的进化分析用到了64条冠状病毒的全基因组序列其中有6条是武汉新型冠状病毒基因组序列

用户7010445

2020/03/03

8070

如何用MEGA构建进化树

bootstrap alignment build edit tree

虽说版本都更新到X了，但小编还是比较喜欢用MEGA7这个版本，从官网上下载即可。这个版本的界面是酱紫的。

阿凡亮

2020/04/14

3K0

手把手教你“破译”武汉新型冠状病毒（一天完成中文期刊《生物信息学》文章的工作）

写这篇“教程”的初衷是高教授发布的一篇文章，文章声称破译了2019新型冠状病毒。拜读后，深感科研文章用语之精妙：可变翻译，南开回文序列（Nankai complemented palindrome）、Nankai CDS、"分子功能与进化分析相结合的研究思想"，看起来都无比高大上。

生信技能树

2020/02/20

1.1K0

TBtools基因家族分析详细教程（1）

数据分析编程算法存储数据库

一共分为4个部分 TBtools基因家族分析详细教程(1) TBtools基因家族分析详细教程(2)基因家族成员的基本分析 TBtools基因家族分析详细教程(3)基因家族成员的进化分析1 TBtools基因家族分析详细教程(3)基因家族成员的进化分析2

Y大宽

2018/10/08

33K1

TBtools基因家族分析详细教程（1）

多序列比对，进化树分析，保守性，密码子偏好性分(1)

http go access python

打开https://www.ncbi.nlm.nih.gov/protein，输入BopA，search

Y大宽

2018/10/08

4.3K0

多序列比对，进化树分析，保守性，密码子偏好性分(1)

3️⃣ 多序列比对(3):工具和数据库

http https 网络安全

另外还有http://www.bioinformatics.utep.edu/BIMER/tools/msa.html https://www.expasy.org/genomics/sequence_alignment

Y大宽

2019/01/28

1.6K0

TBtools | 多图合一至强版教程！进化树+Motifs+结构域+启动子+基因结构+....

bi na structure view 可视化

“Gene Structure View (Advanced)”这个功能可以说，也是一时兴起写出来的。开发的主要动机，还是发现师弟师妹在做的事情实在是太费时间精力。就这样，四五年过去了。直到现在，我仍然没搞懂，这个功能是怎么被大伙用起来的。我甚至没有花过时间，专门为这个功能写教程。网络上已有的教程，均是用户们自发总结，确实已经讲解得足够清晰明白。多少，我有时看到还是有点感动，毕竟这些事情也可以说是软件开发的一部分。太懒，仍然是我的问题。工作以后，能静下心来写点文字的时间，越来越少。正是假期，我已然预见明天之后便是忙碌的一个月。为此，享受这最后一天。相对系统的总结一份教程，希望能减少一部分用户使用问题，也让一些朋友能够更好的使用工具。

CJ-Chen

2021/04/05

19.9K0

TBtools | 多图合一至强版教程！进化树+Motifs+结构域+启动子+基因结构+....

gget，一个能高效进行各式各样网络数据库查询的工具

文件存储 ftp 数据库 sql

希望所有的学徒，实习生以及马拉松授课学员都可以在咱们《生信技能树》的舞台上大放异彩。前面有粉丝自告奋勇希望可以把他自己在简书等平台的生物信息学笔记分享在我们《生信技能树》公众号，在专业的舞台上跟大家切磋！非常欢迎，他前面的分享是：

生信技能树

2022/06/27

1.3K0

gget，一个能高效进行各式各样网络数据库查询的工具

序列比对是整个生物信息的核心，因为几乎每个生物信息分析过程都需要用到序列比对。判断两个基因或两段基因组片段是否相似是序列分析的基本工作。从序列数据库搜索，序列拼接到基因蛋白质功能注释，以及进化树构建等，都依赖于分子序列相似性的比较，也就是序列比对。

生信喵实验柴

2022/10/25

2.7K0

相关推荐

构建系统发育树

更多 >

医学数据库百科0

LV.1

这个人很懒，什么都没有留下～

作者相关精选

换一批

目录

1. 基因蛋白序列

2.下载MEGA软件

到这里基本比对就做完了，但是要怎么进行进化分析，明天再继续介绍哦！

加入讨论

的问答专区 >

1北京宏哥擅长4个领域

相关课程

一站式学习中心 >

轻量应用构建训练营

轻量应用服务器

EMR实时数仓建设实战营

大数据解决方案

弹性 MapReduce