前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >话二| 直面单细胞数据里的难

话二| 直面单细胞数据里的难

作者头像
生信技能树jimmy
发布2024-05-31 21:17:35
1410
发布2024-05-31 21:17:35
举报
文章被收录于专栏:单细胞天地

赛尔,你好。

过去的一周,我的心绪总在跌宕着。每一天都有新的事情发生,使我不能静静地在键盘上回复你的留言,想说的话题好像很多,多到一定程度,又不知从何说起。

就像单细胞测序,从2018年开始,已经有不少的文字,既有不断发表的新文章,也有不少经典方法的更新。2018年有人问什么是barcode,2024年依然有人这样问。数据分析的方法虽然有所改善,但是依然还在Seurat所定义的框架内。我这几年的体会是:单细胞数据分析一直很难,不管接触单细胞数据多久,都会这么觉得。

为什么会这样?

前两天在翻《人工智能在生物信息学中的应用》时,在1.3.3组学数据的类型与特点中,作者的洞察或许可以解惑一二。

  • 大数据量。人类所有的基因都能测到,也就是所有的通路都可以分析。这也为数据分析带来挑战:只要你能想到的机制,单细胞测序都能关联上。单细胞数据分析难点之一:聚焦
  • 高维数,大样本。本来在书中,作者写的是“高维数,小样本”,其实2024年的今天,单细胞的样本量越来越大,就像多个平行宇宙的故事一样,如何穿插成一个完整的故事?
  • 非线性。数据类型多样,样本不均衡,非线性的特点决定了,单细胞数据分析过程也是一个渐进明晰的过程,往往需要不断反复。
  • 高噪声。单细胞数据的质控几乎是除了预算之外的第二个拦路虎,比学习编程这条坎还难以逾越。线粒体、核糖体、中值基因、批次校正、双细胞率,这里的每一个都可能要花上个把星期才能说服自己。
  • 数据分布不均衡。特别是临床数据,某些容易获得的样本数量过多,如癌组织,但是正常组织就很少。大家翻翻已经公开的数据库,肿瘤数据库很多,泛癌研究很多,而健康人的单细胞数据基线在哪里?
  • 多组学整合。每个组学都可以理解为一个调控网络,两个结构不同的网络,如何链接在一起?
  • 结论的佐证。这里我们可以思考一个问题:单细胞数据也是测出来的,为什么它的结果还需要其他方法来验证呢?

不管怎么说,单细胞数据分析一直很难。

所以,有时候再给老师朋友答疑的时候,我会冒出一句:欲戴皇冠,必承其重。我们的确是要带着这些难题来讲述自己的生物学故事。

这让我想起高中的时候,有段时间很迷茫,看到别人的成绩那么好、受教育环境那么好、穿的那么好,而自己该如何是好?当时的我,告诉自己:我的确是要在这样的初始条件下,开创幸福人生!

所有的“难”终将过去,或伴随我们成长。

不把这些“难”转嫁出去,而是与之共舞,也很酷。正所谓:两岸猿声啼不住,轻舟已过万重山。

在过去的几年里,单细胞数据分析中进展最快,也讨论最多的当属细胞类型注释,既有cellmarker 这样的数据库,也有大量的算法,比如ChatGPT,然而就在最近,Nature Medicine上的一篇Multiomic analyses uncover immunological signatures in acute and chronic coronary syndromes文章Fig1,用的还是十分朴素的注释和标注的方法。

这个故事告诉我们,虽然很难,只要我们懂得抓住主要矛盾,也能讲好故事。懂得忽略什么,和懂得重视什么一样重要,有时候甚至更重要。如中值基因、线粒体含量、双细胞……

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 单细胞天地 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档