首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >脱离生物学背景的数据分析都是耍流氓

脱离生物学背景的数据分析都是耍流氓

作者头像
生信技能树
发布2025-08-12 10:32:18
发布2025-08-12 10:32:18
10400
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

单细胞转录组数据的拷贝数变异分析已经是很常规化了,尤其是inferCNV流程。我在前面的推文都给出来了详细的代码和案例讲解:

  • 走inferCNV流程的时候只需要针对上皮细胞即可
  • 上皮细胞里面混入了淋巴系和髓系免疫细胞呢
  • 单细胞亚群绝对数量和相对比例的探索
  • 为什么胃癌并不使用拷贝数来判断恶性的肿瘤上皮细胞呢

但是万万没想到大家会在可视化方面栽跟头,比如这个2022的文章:《Single-cell RNA sequencing identifies a paracrine interaction that may drive oncogenic notch signaling in human adenoid cystic carcinoma》,对应的数据集是GSE210171,大家可以很容易下载这个文件然后做一下降维聚类分群后,针对性的走inferCNV分析:

  • GSE210171_acc_scrnaseq_counts.txt.gz

文章给出来了 (Figure 1B). 就是下面的拷贝数全景图:

文章里面给出来了拷贝数全景图,很明显就有染色体排序问题,图里面的chr17和19居然那么长,比chr8和9都长很多。这个是违背生物学常识的,

  • 人类染色体的长度可以从约8000万到2.5亿个碱基对不等。
  • 例如,最大的染色体是chr1,长度约为2.5亿个碱基对,而最小的染色体是chr22,长度约为5000万个碱基对。
  • 染色体的大小也是一个重要的排序依据。通常,编号较小的染色体(如chr1、chr2等)相对较大,而编号较大的染色体(如chr21、chr22)相对较小。主要基于染色体的形态和大小,但这种排序并不完全反映它们的长度。但是有例外的很少很少。 https://www.ncbi.nlm.nih.gov/grc/human/data
代码语言:javascript
代码运行次数:0
运行
复制
染色体编号  长度(bp)
1 248,956,422
2 242,193,529
3 198,295,559
4 190,214,555
5 181,538,259
6 170,805,979
7 159,345,973
8 145,138,636
9 138,394,717
10 133,797,422
11 135,086,622
12 133,275,309
13 114,364,328
14 107,043,718
15 101,991,189
16 90,338,345
17 83,257,441
18 80,373,285
19 58,617,616
20 64,444,167
21 46,709,983
22 50,818,468
X 156,040,895
Y 57,227,415 

可以看到chr17和19肯定是很短很短了,那么文章里面的拷贝数全景图起码染色体编号肯定是有错误的。而且很容易推断出来问题出在哪里。在Unix-like系统的命令行中,sort命令用于对文本文件中的行进行排序。-k选项用于指定排序的依据,即按照哪一列(或字段)进行排序,而-n选项则指定按照数值进行排序。如果你使用sort -k而没有使用-n,那么sort命令将按照字符串(而非数值)的方式对指定的列进行排序。这意味着,即使列中的内容看起来像是数字,它们也会按照字典顺序(即字符顺序)进行排序,而不是按照数值大小。就会出现chr10在chr2的前面这样的错误标签。

当然了,这样的错误其实“无伤大雅”,如果作者看到了就简单的勘误即可。但是文章里面提到的 The most common CNAs were loss of segments of chromosome 12 and gain of segments of chromosome 18 (Figure 1B). 就有问题了。

题外话

最近居然在朋友圈刷到了一个科研黑产业链,就是有目的的举报科研学术不端然后收费摆平。

学徒专业

下载上面提到的GSE210171_acc_scrnaseq_counts.txt.gz文件然后做一下降维聚类分群后,针对性的走inferCNV分析。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 题外话
  • 学徒专业
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档