咱们的生物信息学马拉松授课学员在掌握了我们的授课的GEO数据挖掘之后通常是会试试看自己感兴趣的科研领域的表达量芯片或者转录组测序公开数据集,然后就各自碰壁,因为绝大部分文献在公开自己的数据的时候往往是会埋一些不大不小的坑。
比如其中一个学员就反馈了一个看起来是难题的表达量芯片:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE98793
文章是2018的:《Replicable and Coupled Changes in Innate and Adaptive Immune Gene Expression in Two Case-Control Studies of Blood Microarrays in Major Depressive Disorder》,是抑郁症患者血液表达量芯片,很简单的Case-Control 两分组实验设计。前面已经给出了4个GEO芯片数据挖掘分析点,大家可以先去读一下,详见:
可以看到文献里面说的其实是3分组 :
但是它的全局pca显示的里面是有一个批次效应在里面的:
有一个批次效应在里面
这个批次效应本身就是作者记录好了,理论上我们是可以去矫正,矫正前后的pca也很容易去可视化。或者干脆说把这个表达量矩阵拆分成为两个数据集,每个数据集内部去做case和control的差异分析:
> table(pd$`subject group:ch1`,pd$`batch:ch1`)
1 2
CASE; major depressive disorder (MDD) patient 64 64
CNTL; healthy control 32 32
但是,如果大家都测试了,就很容易发现, 根本就解决不了case和control的差异非常微弱的生物学事实!
上面介绍的研究是想看抑郁症患者血液和正常人的血液的差异,开始抑郁症患者的直接发病部位并不是全是的血液,所以找到的差异很微弱是符合生物学认知的!
在转录组研究中,疾病状态和正常对照之间的比较确实是一种常见的实验设计。当疾病主要影响特定组织或器官时(如癌症),通常首选的是直接从患病组织(例如肿瘤组织)中提取样本进行分析,因为这样可以更直接地观察到与疾病相关的分子变化。然而,如果研究设计仅限于从患者和健康对照者抽取血液样本,那么在血液中观察到的转录组差异可能不如直接从病变组织中获得的样本那么显著或特异。血液样本中的基因表达差异可能反映了:
尽管从血液样本中获得的转录组数据可能包含有关疾病状态的信息,但这些信息可能不如直接从病变组织中获得的数据那样具体和直接。此外,血液样本中的基因表达差异可能更难以解释,因为它们可能受到多种因素的影响,包括疾病本身的影响、治疗效应、个体的生活方式和遗传因素等。
因此,如果研究目的是要精确地描述疾病特有的分子变化,那么首选应该是从病变组织中获取样本。然而,血液样本具有易于获取和较少侵入性的优点,可以用于初步筛查、监测疾病进展或治疗反应等目的。在分析血液样本的转录组数据时,研究人员需要谨慎解释结果,并考虑到可能影响基因表达的其他因素。
只能说是,随意点,放宽阈值,比如这个2024年12月28的数据挖掘文章:《Interpretable machine learning-driven biomarker identification and validation for Alzheimer’s disease》,想看的是differences between AD patients and age-matched controls in the middle temporal gyrus, :
可以看到如果是把阈值放宽到|logFC| > 0.365,可以拿到上下调基因都接近1000个,如果是继续放宽阈值当然是拿到的基因越来越多 :
image-20241229151909372
之前就有学员就反馈了2020的一个美国纽约的哥伦比亚大学的阿兹海默症研究文章:《T Cell Responses to Neural Autoantigens Are Similar in Alzheimer’s Disease Patients and Age-Matched Healthy Control》, 对应的数据集是GSE153104,可以看到研究者关注的应该是Alzheimer’s disease (AD),和healthy controls (HC).的转录水平的变化,而且还具体到了不同的细胞亚群:
这是一个大队列的转录组了,166个转录组测序在2019之前在美帝那边起码耗费二十万人民币经费。但是呢,我们很容易读取作者给出来的表达量矩阵文件进行简单的质量控制,然后发现其实在Alzheimer’s disease (AD),和healthy controls (HC).的转录水平基本上没有什么变化!
类似的精神疾病和神经退行性疾病的患者大概率上并不需要做大脑区域的手术,就没有取到病变部位的组织,这样的话大家很喜欢去取病人的血液做转录组研究,但是精神类疾病本来就很难影响全身的血液系统,所以实验设计注定了很难拿到很显著的结果。以下是一些常见的精神疾病和神经退行性疾病的中英文对照列表:
精神疾病:
神经退行性疾病:
请注意,这个列表并不全面,精神疾病和神经退行性疾病的种类繁多,每种疾病都有其特定的临床表现、病理特征和治疗方法。
针对酒精成瘾、精神疾病、神经退行性疾病等状况进行血液样本的转录组测序,并与正常对照组的血液样本进行比较,可以揭示与这些疾病相关的基因表达变化。然而,不同分组的转录组全局表达量的差异程度可能会有显著差异,这主要取决于以下几个因素:
因此,虽然可以预期在这些疾病状态下会观察到与正常对照组相比的基因表达差异,但具体的差异程度需要通过实验和统计分析来确定。通过这些分析,研究人员可以识别与特定疾病相关的生物标志物,并进一步了解疾病的分子机制,为诊断、治疗和疾病管理提供信息。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有