序
单细胞时代刷新了微观世界下观察的分辨率,也让科学研究更接近于真相。
尽管如此,单细胞也更暴露出了比以往bulk测序研究更多的问题。
技术层面上的问题例如基因究竟在一个细胞中表达与否、数据集之间的批次效应如何消除,等等;生物层面上的问题例如如何定义一个细胞类型或状态、细胞从哪来到哪去、基因或细胞之间是如何协同的,等等。
然而一旦模糊的界限被打破,就已无法回避。
生信的开发领域中已经诞生了大量优秀的算法、软件,来解决上述的各类问题。但如同机器学习领域一样,许多算法存在有限的泛化能力,导致在生信的应用领域中,会在错误的时刻发生错误的调用及解读。
作为生信应用研究人员,此时想回答生物学层面的问题就需要同时回答技术层面的问题,这种”既要又要”无疑在迫使生信分析人员转变角色,成为真正的左手技术、右手生物的生信科学家。
这里的”技术”强调下,它并不指代编程能力,也不指代算法开发上的能力,而是指一种在”生物信息”角度上对科学的辩证思维:时刻围绕着中心法则构建和完善生物世界观,并对所有生物数据是如何产生的、如何反应生物本身等进行不断的质疑与推断,学习理解常用算法背后的原理及其缺陷,避免让自己陷入黑盒。
最终,结合产生数据的技术背景和生物学背景,借助各类工具全方位、多角度的探索数据,才可以在分析中有效推断出微观世界所发生着的各类事件,才可以对上述问题做出更自信的回答。
SCP是一个端到端单细胞数据分析管道,可实现数据从下机后的处理、分析、共享和发表的全部工作。管道意味着极简、标准化、模块化,SCP的特点是简洁、全面、高效,让单细胞的科学研究更专注于科学本身。
SCP中的所有方法根据分析类型主要分为三个模块,包括了数据预处理模块、下游分析模块和可视化模块。借助reticulate[1],SCP也在内部创建了一个python环境环境来整合python相关的工具和方法,让其在R/Rstudio中即可完成调用和结果解析。
SCP中的所有方法均围绕Seurat对象(Seurat V4)开发,虽然如此,利用转换函数adata_to_srt()
我们依然可以在任意时候从python中的经典的AnnData[2]对象出发(.h5ad)。
更多细节将在后面的教程中说明,敬请期待。
[1]
reticulate: https://github.com/rstudio/reticulate/
[2]
AnnData: https://github.com/scverse/anndata