单细胞转录组数据的拷贝数变异分析已经是很常规化了,尤其是inferCNV流程。我在前面的推文都给出来了详细的代码和案例讲解:
但是万万没想到大家会在可视化方面栽跟头,比如这个2022的文章:《Single-cell RNA sequencing identifies a paracrine interaction that may drive oncogenic notch signaling in human adenoid cystic carcinoma》,对应的数据集是GSE210171,大家可以很容易下载这个文件然后做一下降维聚类分群后,针对性的走inferCNV分析:
文章给出来了 (Figure 1B). 就是下面的拷贝数全景图:
文章里面给出来了拷贝数全景图,很明显就有染色体排序问题,图里面的chr17和19居然那么长,比chr8和9都长很多。这个是违背生物学常识的,
染色体编号 长度(bp)
1 248,956,422
2 242,193,529
3 198,295,559
4 190,214,555
5 181,538,259
6 170,805,979
7 159,345,973
8 145,138,636
9 138,394,717
10 133,797,422
11 135,086,622
12 133,275,309
13 114,364,328
14 107,043,718
15 101,991,189
16 90,338,345
17 83,257,441
18 80,373,285
19 58,617,616
20 64,444,167
21 46,709,983
22 50,818,468
X 156,040,895
Y 57,227,415
可以看到chr17和19肯定是很短很短了,那么文章里面的拷贝数全景图起码染色体编号肯定是有错误的。而且很容易推断出来问题出在哪里。在Unix-like系统的命令行中,sort
命令用于对文本文件中的行进行排序。-k
选项用于指定排序的依据,即按照哪一列(或字段)进行排序,而-n
选项则指定按照数值进行排序。如果你使用sort -k
而没有使用-n
,那么sort
命令将按照字符串(而非数值)的方式对指定的列进行排序。这意味着,即使列中的内容看起来像是数字,它们也会按照字典顺序(即字符顺序)进行排序,而不是按照数值大小。就会出现chr10在chr2的前面这样的错误标签。
当然了,这样的错误其实“无伤大雅”,如果作者看到了就简单的勘误即可。但是文章里面提到的 The most common CNAs were loss of segments of chromosome 12 and gain of segments of chromosome 18 (Figure 1B). 就有问题了。
最近居然在朋友圈刷到了一个科研黑产业链,就是有目的的举报科研学术不端然后收费摆平。
下载上面提到的GSE210171_acc_scrnaseq_counts.txt.gz文件然后做一下降维聚类分群后,针对性的走inferCNV分析。