前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言生态学:进化树推断物种分化历史:分类单元数与时间关系、支系图可视化

R语言生态学:进化树推断物种分化历史:分类单元数与时间关系、支系图可视化

原创
作者头像
拓端
发布2023-01-30 19:16:03
6060
发布2023-01-30 19:16:03
举报
文章被收录于专栏:拓端tecdat

全文链接:http://tecdat.cn/?p=31434

原文出处:拓端数据部落公众号

我们围绕进化树技术进行一些咨询,分析生物类群在时间上的多样性是如何变化的。我们将用到分类单元数-时间图(Lineages-through-time plot),该图可以用来描述物种多样化的总体趋势。

数据

3500trees.nexus是nexus格式的文件,里面有3500棵树。

besttree.nexus也是nexus格式的文件,里面有1颗树,是从3500颗树中筛选出来的一致树。

各支系图示

这棵树总共有4大支系(Lineage),现在我需要做的分析都是需要分别做总的,以及4个支系的,也就是说同样的分析要做5次,针对5组不同的对象。

分析方法

方法主要是物种多样化速率(diversification rate) 相关的内容。

代码语言:javascript
复制
trees=read.nexus("3500trees.nexus")  
besttree=read.nexus("besttree.nexus")

1.mltt plot (multiple lineage through time)

分类单元数-时间图

lingeage的数值取log的,95%置信区间的ltt plot,中间黑色线的是besttree的,要显示出来。 分别做总的,以及4个支系的,共5个图。

代码语言:javascript
复制
plot(trees)
代码语言:javascript
复制
,log='y')
代码语言:javascript
复制
besttree
代码语言:javascript
复制
# 95% ltt置信区间

ltt.ci<-function(tree.all){  
  ntip=length(tree.all[[1]]$tip.label)  
  ntree=length(tree.all)

2.gamma statistic

检验分化速率的变化趋势,看γ的值是正的还是负的。结果需要得到每组的γ值及P值。

代码语言:javascript
复制
mmaStat(besttree)

## [1] -3.693285

3. Monte Carlo constant rates test

检验样品不全是否对分化速率的结果有显著的影响,应该也是每组都要做的。

代码语言:javascript
复制
mc.out <- mcmc.pop
line(tree.hiv)  
plot(sk, l

4.对每个组做几个模型的检验,主要包括Pure-birth, birth-death, Yule 2-rate,density-dependent logistic,density-dependent exponential模型。

代码语言:javascript
复制
tdAICr
## --------------Model Summary----------------  
##  
## MODEL pureBirth  
##  
## Parameters:  r1  
##  
## LH 535.1086  
##  
## AIC -1068.217  
##  
## r1 0.1817879  
##  
## a -1068.217  
##  
##  
## --------------------------  
## MODEL bd  
##  
## Parameters:  r1, a  
##  
## LH 535.1086  
##  
## AIC -1066.217  
##  
## r1 0.1817879  
##  
## a 0  
##  
##  
## --------------------------  
## MODEL DDL  
##  
## Parameters:  r1, k  
##  
## LH 542.2213  
##  
## AIC -1080.443  
##  
## r1 0.2537928  
##  
## a -1080.443  
##  
## k 554  
##  
##  
## --------------------------  
## MODEL DDX  
##  
## Parameters:  r1, X  
##  
## LH 536.991  
##  
## AIC -1069.982  
##  
## r1 0.3098342  
##  
## a -1069.982  
##  
## x 0.1131752  
##  
##  
## --------------------------  
##  
## Best Constant Rate Model = pureBirth  AIC  -1068.217  
##  
## Best Rate Variable Model = DDL  AIC  -1080.443  
##  
## delta AICrc =  12.2254

##       model params np mtype       LH        r1 r2         a        xp   k  
## 1 pureBirth     r1  1    RC 535.1086 0.1817879 NA -1068.217        NA  NA  
## 2        bd  r1, a  2    RC 535.1086 0.1817879 NA     0.000        NA  NA  
## 3       DDL  r1, k  2    RV 542.2213 0.2537928 NA -1080.443        NA 554  
## 4       DDX  r1, X  2    RV 536.9910 0.3098342 NA -1069.982 0.113175

最受欢迎的见解

1.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法:决策树,随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习:在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习:推荐系统实现(以矩阵分解来协同过滤)

9.python中用pytorch机器学习分类预测银行客户流失

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 全文链接:http://tecdat.cn/?p=31434
  • 原文出处:拓端数据部落公众号
  • 数据
    • 各支系图示
    • 分析方法
      • 1.mltt plot (multiple lineage through time)
        • 分类单元数-时间图
        • 2.gamma statistic
        • 3. Monte Carlo constant rates test
        • 4.对每个组做几个模型的检验,主要包括Pure-birth, birth-death, Yule 2-rate,density-dependent logistic,density-dependent exponential模型。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档