上回说到~
震惊!竟然有人研究精液微生物的生物地理分布这篇文章中,材料方法大量引用了本文的方法。本文于2017年发表在arxiv上。目前已被Ecology and Evolution (IF: 2.34) 接收。
Arxiv和bioRxiv类似,也是预印本杂志。文章主要集中于物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程与系统科学、经济学。网址为https://arxiv.org/。而bioRxiv主要集中于生物学。
之前写过一篇文章:bioRxiv上的生物学期刊发表情况,介绍了预印本杂志下载量和最后文章发表期刊的关系,有兴趣可以查看。
本文为纯方法学的介绍,更像是一篇笔记,内容长且枯燥。慎读~
背景
种面积关系(species-area relationships, SAR) 是生态学中的基本规律。是生态学中最普遍但又多变的模式 (ecology’s most general, yet protean pattern)。
传统的SAR只考虑物种的个数,而没有考虑多样性。本研究将传统的SAR扩展到多样性-面积关系(diversity area relationship, DAR)。
选取了三种DAR模型:传统的幂律分布(power law, PL);指数截断的幂律分布(PLEC, PL with exponential cutoff);和逆指数截断的幂律分布(PLIEC, PL with inverse exponential cutoff)。
用美国肠道微生物组项目 (American gut microbiome project, AGP) 的数据集验证了作者的假设。样本包含1473个健康的北美白人 (迄今为止单个项目中最大的人类数据集)。重抽序列数量为10000。
多样性指数的计算
采用不同阶数的Hill number作为alpha和beta多样性指数计算DAR。
利用Hill number计算alpha和beta多样性,并利用乘法分拆 (multiplicative partition)定义beta多样性。
Hill一开始是均匀度 (evenness index) 的一个指数。后来才被用于表征alpha多样性:
S是物种数;Pi是i物种相对丰度;q是多样性阶数
对于q=1, Hill没有定义,但是当q接近1时,它的极限以如下形式存在:
q决定了多样性指数的灵敏性。
q = 0, 计算物种数量;
q = 1, 计算指数的Shannon entropy,意义为群落中典型或常见的物种数量;
q = 2, 计算Simpson index,意义为群落中优势种或高丰度种的数量。
近期很多研究都主张使用乘法来定义beta多样性,而不是使用加法来定义。
分别用Hill表征群落的alpha和gamma多样性,两者相除得到beta多样性。
DAR三种模型
对于使用幂律模型 (power law, PL)及指数截断的幂律模型 (power law with exponential cutoff, PLEC)构建DAR的方法在上文已经提过。即
逆指数截断的幂律分布(power law with inverse exponential cutoff, PLEC)公式如下,其曲线为S型
PLEC和PLIEC都可以看做是对参数c的调整。由于物种不可能随着面积增大而无限增加,PLEC 和PLIEC都会存在渐近线。
PLEC和PLIEC中的渐近参数(d)不仅解决了对高估多样性的传统幂律分布的批评(He & Hubbell 2011),还保留了具有生物学意义的参数(z)。d的主要作用是对c进行修正。而c没有太多的生物学意义(Tjørve 2009)。
He FL & SP Hubbell (2011) Species–area relationships always overestimate extinction rates from habitat loss. Nature 473:368-371
Tjørve E. (2009) Shapes and functions of species–area curves (II): a review of new models and parameterizations. Journal of Biogeography, 36, 1435–1445
对PL,PLEC 和PLIEC方程取对数,进行线性转化:
定义了三个概念:
DAR profile:z-q关系。z为斜率,表示多样性随面积的变化速度,q为多样性阶数。
PDO (pair-wisediversity overlap): g-q关系。g是q条件下的成对样本之间共有的多样性。
MAD (maximalaccrual diversity): Dmax-q关系。Dmax为q条件下最大多样性的值。
估计MAD
三个模型中,只有PLEC存在最大值。因此用PLEC模型来估计maximal accrual diversity (MAD)。证明如下:
对于公式6,其函数先增再减。因此其导数为0时取得最大值。
估计PDO
(这部分太复杂,证明过程略过)
SAR具有自相似性或尺度不变性(self-similarity or scale-invariance)。而PL模型也具有这种性质。因此用PL模型估计pair-wise diversity overlap (PDO)。
最后得到公式为:
结果讨论
利用AGP数据分别测试了alpha-DAR 和 beta-DAR模型。每种DAR模型又包含了PL, PLEC 和 PLIEC三种函数形式。
DAR(z值)随q增加单调递减;PDO(g值)随q增加单调递增。
MAD在alpha和beta多样性中变化趋势相同。都随q增大单调减少。
对于alpha-DAR模型
q为0和1时,PL,PLEC和PLIEC效果都很好。当q为2和3,PLEC和PLIEC效果优于PL。由于高阶的Hill是非线性的,PL效果差是可以预期的。
PL函数最简单;PLIEC总体表现最好,拟合的p和R最优;PLEC对MAD预测效果最好。
还观察到z会出现负值。这样其实也是有生态学意义的。q较高时,多样性随着面积的增加并不一定会一直增大。增大、不变或减少都有可能出现。因为稀有物种的权重发生了变化。另外,由公式11和12可知,面积必为正,则z和d的正负总是相反的。
综合所有结果,作者建议PL用于DAR(z)和PDO(g),PLEC用于MAD。
前人研究结果表明SAR的z值一般在0.019-0.470之间,大部分小于0.2。另一项对真核土壤微生物的研究表情z在0.20-0.23之间。由于前人测序通量比较低,可能会低估z值。关于宏观生态学文献中植物和动物z值的范围有很多报道,但大多在0.2-0.4之间。Triantis et al .(2012)对陆地岛屿601组数据进行了大规模的调查,结果显示z在0.064到1.312之间,51%的数据在0.2 - 0.4之间,25%的数据超过了0.4,平均z=0.321。而本研究PL 模型z值为[0.315, 0.085, 0.037, 0.020]。PLIEC模型z值为[0.291, 0.058,0.014, 0.005], PLEC模型z值为 [0.387, 0.165, 0.086, 0.052]。本研究不仅落在一般范围内,而且恰好与宏观生态学的平均值(0.321)相当接近。
对于beta-DAR模型
beta-DAR模型的R和p值高于alpha-DAR,三种函数都拟合的更好。
PL模型的z值为[0.311, 0.078,0.027, 0.019],略低于alpha-DAR。
一些相关的重要文献
SAR 函数形式的讨论
Helmus, MR &Ives, A.R. (2012) Phylogenetic diversity–area curves. Ecology, 91, 31–43.
SAR受到采样方法、空间尺度及生物类型、生境类型的显著影响。
Drakare S, JJLennon and H Hillebrand (2006) The imprint of the geographical, evolutionaryand ecological context on species–area relationships. Ecology Letters,9: 215–227
超过20个SAR模型及其他重要问题的讨论
Tjørve E. (2009)Shapes and functions of species–area curves (II): a review of new models andparameterizations. Journal of Biogeography, 36, 1435–1445.
Triantis KA, FGuilhaumon and RJ Whittaker (2012) The island species–area relationship:biology and statistics. Journal of Biogeography, 39, 215–231
Williams MR, BBLamont & JD Henstridge (2009) Species–area functions revisited. Journalof Biogeography, 36, 1994–2004.
—END—