

Journal: Molecular ecology resources
First published: 02 December 2018
Running Head: Illumina MiSeq Run Comparison Tool
如果你可以自己上机测序,本文将比较有用。
作者收集了2012-2017年在5个MiSeq机器上一共产出的486个run (共包含8518个样本) 的数据质量报告。进行PCA和K-means聚类,得到的拟合公式可以对Miseq产出的数据质量进行预测。通过数据量/数据质量可以评估一次测序得到的数据是否在测序上存在问题。
测序的机器为 Illumina® MiSeq desktopsequencers using the 500-cycle MiSeq Reagent V2 Kits (Illumina®, San Diego, CA, USA)
考察的主要指标(run metric)有ClusterDensity (CD), %>Q30, Clusters Passing Filter (Clusters PF),Total Number of Reads, Total Number of Reads Passing Filter (Reads PF), Total Yield, Q30 Yield,Phasing, Prephasing, 每个指标及简介如下图所示。

每一个run metric作为一个变量(列),每一个MiSeq run作为一个观测(行),做成类似OTU一样的表格。再进行PCA及k-mer的聚类。
如下图所示,不同的指标的PCA聚类分析。相变phasing和prephasing与测序质量Q30,Total yield, Cluster Density等指标呈负相关。

对得到的PC1,2,3采用欧式距离进行3维k-means聚类,结果如下图所示。由于%>Q30比例太低而导致测序质量低的为蓝色,由相变Phasing or Prephasing导致测序质量低的为红色。绿色为测序质量好的结果。这个图很重要,根据此可以对测序质量进行预测。

另外作者还发现Total Yield (in Gb)和the total number of reads passing the filter存在显著的相关关系(R2 = 0.9742),如下图所示。根据此可以对数据量进行预测。

基于以上两点,作者制作了MiSeq In-Run Forecast工具,是一个Excel表格,下载地址为(点阅读原文直达):
https://figshare.com/s/ef7554978305a7089403
打开这个excel文件,里面有很多参数需要填进去。

填完之后就会出来结果。自动计算出PCA的值并进行K-means聚类,结果与上面聚类的结果进行比较。下图是我之前几次测序的结果。都落在了Adequate Run中,说明之前几次测序仪没问题。

所以之前测序质量不好,都是我的锅了~

Reference
Kastanis, G. J., Santana-Quintero, L. V., Sanchez-Leon, M., Lomonaco, S., Brown, E. W., & Allard, M. W. (2018). In-Depth Comparative Analysis of Illumina((R)) MiSeq Run Metrics: Development of a Wet-lab Quality Assessment Tool. Mol Ecol Resour. doi:10.1111/1755-0998.12973
一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够不定期分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。