我们马拉松授课最后一个单元是转录组数据分析,包含了上游的Linux和下游的r,而且还有单细胞相关内容。其中单细胞转录组上游流程最经典就是10x技术,如果是正常的10x技术的单细胞转录组:
正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:
但是学员在使用我们的教程和代码处理这个:https://ngdc.cncb.ac.cn/gsa/browse/CRA011974 发现里面的4个样品是成功的但是另外的4个就失败了:
Accession Experiment title BioProject accession
CRX750201 CD276_1 PRJCA018455
CRX750202 CD276_2 PRJCA018455
CRX750203 CD276_3 PRJCA018455
CRX750204 CD276_4 PRJCA018455
CRX750205 ctl1 PRJCA018455
CRX750206 ctl2 PRJCA018455
CRX750207 KO1 PRJCA018455
CRX750208 KO2 PRJCA018455
我们首先下载这些文件:
ls -lh *gz| cut -d" " -f5-
24G 8月 21 15:08 CRR833325_f1.fq.gz
26G 8月 21 15:26 CRR833325_r2.fq.gz
22G 8月 21 18:26 CRR833326_f1.fq.gz
24G 8月 21 18:42 CRR833326_r2.fq.gz
26G 8月 21 17:10 CRR833327_f1.fq.gz
28G 8月 21 17:30 CRR833327_r2.fq.gz
27G 8月 21 18:11 CRR833328_f1.fq.gz
28G 8月 21 17:51 CRR833328_r2.fq.gz
11G 8月 21 16:51 CRR833329_f1.fastq.gz
32G 8月 21 16:43 CRR833329_r2.fastq.gz
11G 8月 21 15:54 CRR833330_f1.fastq.gz
29G 8月 21 15:46 CRR833330_r2.fastq.gz
11G 8月 21 14:51 CRR833331_f1.fastq.gz
29G 8月 21 14:44 CRR833331_r2.fastq.gz
11G 8月 21 16:21 CRR833332_f1.fastq.gz
29G 8月 21 16:14 CRR833332_r2.fastq.gz
很明显的看到上面的4个样品和下面的4个不一样,上面的4个样品的左右两个fq文件大小是差不多的,但是下面的4个样品很明显左边的fq文件远小于右边的fq文件!
其中:
也就是说,r1文件里面是16bp的barcode,还有12个bp的umi,总共是28个bp,但是r2里面可以是100bp或者150bp的碱基序列。这样的话,r2文件肯定是比r1大,但是很多情况下我们的测序仪其实对r1和r2都会无差别的给出来100bp或者150bp的碱基序列,有些时候两个文件大小也是可以相当的,取决于我们是否对r1文件进行了裁剪!
那么,上面的4个样品,是因为没有裁剪吗?就需要读一下上面的 CRA011974 数据集对应的文章了:《ITGB6 modulates resistance to anti-CD276 therapy in head and neck cancer by promoting PF4+ macrophage infiltration》,注意到里面的单细胞技术根本就不是10x,而是国产的新格元:

国产的新格元
我们把另外的4个样品,走一下新格元的流程,发现确实是可以定量成功的!而且也是可以降维聚类分群的,如下所示:

降维聚类分群
当然了,还是可以继续读:《ITGB6 modulates resistance to anti-CD276 therapy in head and neck cancer by promoting PF4+ macrophage infiltration》这个文献,做更多的图!