前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >有些差异本来就是不应该很明显

有些差异本来就是不应该很明显

作者头像
生信技能树
发布于 2024-12-30 06:44:12
发布于 2024-12-30 06:44:12
9300
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

咱们的生物信息学马拉松授课学员在掌握了我们的授课的GEO数据挖掘之后通常是会试试看自己感兴趣的科研领域的表达量芯片或者转录组测序公开数据集,然后就各自碰壁,因为绝大部分文献在公开自己的数据的时候往往是会埋一些不大不小的坑。

比如其中一个学员就反馈了一个看起来是难题的表达量芯片:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE98793

文章是2018的:《Replicable and Coupled Changes in Innate and Adaptive Immune Gene Expression in Two Case-Control Studies of Blood Microarrays in Major Depressive Disorder》,是抑郁症患者血液表达量芯片,很简单的Case-Control 两分组实验设计。前面已经给出了4个GEO芯片数据挖掘分析点,大家可以先去读一下,详见:

可以看到文献里面说的其实是3分组 :

  • MDD (N=128, 64 with generalised anxiety disorder, diagnosed by the MINI questionnaire, and 64 without anxiety disorder) and healthy controls (N=64).

但是它的全局pca显示的里面是有一个批次效应在里面的:

有一个批次效应在里面

这个批次效应本身就是作者记录好了,理论上我们是可以去矫正,矫正前后的pca也很容易去可视化。或者干脆说把这个表达量矩阵拆分成为两个数据集,每个数据集内部去做case和control的差异分析:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> table(pd$`subject group:ch1`,pd$`batch:ch1`)
                                               
                                                 1  2
  CASE; major depressive disorder (MDD) patient 64 64
  CNTL; healthy control                         32 32

但是,如果大家都测试了,就很容易发现, 根本就解决不了case和control的差异非常微弱的生物学事实!

病人的血液组织本来就没有病人本身的病人的发病部位差异大

上面介绍的研究是想看抑郁症患者血液和正常人的血液的差异,开始抑郁症患者的直接发病部位并不是全是的血液,所以找到的差异很微弱是符合生物学认知的!

在转录组研究中,疾病状态和正常对照之间的比较确实是一种常见的实验设计。当疾病主要影响特定组织或器官时(如癌症),通常首选的是直接从患病组织(例如肿瘤组织)中提取样本进行分析,因为这样可以更直接地观察到与疾病相关的分子变化。然而,如果研究设计仅限于从患者和健康对照者抽取血液样本,那么在血液中观察到的转录组差异可能不如直接从病变组织中获得的样本那么显著或特异。血液样本中的基因表达差异可能反映了:

  1. 全身性反应:某些疾病可能会引起全身性的炎症反应或其他系统性变化,这些变化可以在血液细胞的基因表达中反映出来。
  2. 疾病微环境的影响:肿瘤患者血液内的细胞可能受到肿瘤微环境释放的信号的影响,导致基因表达的变化。
  3. 治疗效应:如果患者已经接受了治疗,血液样本中的基因表达差异可能部分反映了治疗的影响。
  4. 疾病进展阶段:在疾病早期,血液样本中的基因表达差异可能不如晚期疾病那样明显。
  5. 个体差异:不同个体对疾病和治疗的反应存在差异,这可能会影响血液样本中的基因表达模式。
  6. 血液细胞组成变化:疾病状态可能会影响血液中不同类型细胞的比例,从而影响整体的基因表达谱。

尽管从血液样本中获得的转录组数据可能包含有关疾病状态的信息,但这些信息可能不如直接从病变组织中获得的数据那样具体和直接。此外,血液样本中的基因表达差异可能更难以解释,因为它们可能受到多种因素的影响,包括疾病本身的影响、治疗效应、个体的生活方式和遗传因素等。

因此,如果研究目的是要精确地描述疾病特有的分子变化,那么首选应该是从病变组织中获取样本。然而,血液样本具有易于获取和较少侵入性的优点,可以用于初步筛查、监测疾病进展或治疗反应等目的。在分析血液样本的转录组数据时,研究人员需要谨慎解释结果,并考虑到可能影响基因表达的其他因素。

一定要找差异怎么办呢

只能说是,随意点,放宽阈值,比如这个2024年12月28的数据挖掘文章:《Interpretable machine learning-driven biomarker identification and validation for Alzheimer’s disease》,想看的是differences between AD patients and age-matched controls in the middle temporal gyrus, :

  • A total of 4151 DEGs in GSE109887 dataset were found (|logFC| > 0.2, adj. P.Val < 0.05), among which 2037 were up-regulated and 2114 were down-regulated
  • https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE109887

可以看到如果是把阈值放宽到|logFC| > 0.365,可以拿到上下调基因都接近1000个,如果是继续放宽阈值当然是拿到的基因越来越多 :

image-20241229151909372

精神类疾病本来就很难影响全身的血液或者大脑区域

之前就有学员就反馈了2020的一个美国纽约的哥伦比亚大学的阿兹海默症研究文章:《T Cell Responses to Neural Autoantigens Are Similar in Alzheimer’s Disease Patients and Age-Matched Healthy Control》, 对应的数据集是GSE153104,可以看到研究者关注的应该是Alzheimer’s disease (AD),和healthy controls (HC).的转录水平的变化,而且还具体到了不同的细胞亚群:

  • PBMCs (HC n=28 and AD n=27),
  • CD4 memory (HC n=28 and AD n=27)
  • CD8 memory (HC n=30 and AD n=26) T cells

这是一个大队列的转录组了,166个转录组测序在2019之前在美帝那边起码耗费二十万人民币经费。但是呢,我们很容易读取作者给出来的表达量矩阵文件进行简单的质量控制,然后发现其实在Alzheimer’s disease (AD),和healthy controls (HC).的转录水平基本上没有什么变化!

类似的精神疾病和神经退行性疾病的患者大概率上并不需要做大脑区域的手术,就没有取到病变部位的组织,这样的话大家很喜欢去取病人的血液做转录组研究,但是精神类疾病本来就很难影响全身的血液系统,所以实验设计注定了很难拿到很显著的结果。以下是一些常见的精神疾病和神经退行性疾病的中英文对照列表:

精神疾病:

  1. 抑郁症 - Major Depressive Disorder (MDD)
  2. 双相情感障碍 - Bipolar Affective Disorder
  3. 精神分裂症 - Schizophrenia
  4. 焦虑症 - Anxiety Disorders
  5. 强迫症 - Obsessive-Compulsive Disorder (OCD)
  6. 创伤后应激障碍 - Post-Traumatic Stress Disorder (PTSD)
  7. 边缘型人格障碍 - Borderline Personality Disorder (BPD)
  8. 注意力缺陷多动障碍 - Attention Deficit Hyperactivity Disorder (ADHD)
  9. 饮食障碍 - Eating Disorders (如: 神经性厌食症 Anorexia Nervosa, 神经性贪食症 Bulimia Nervosa)
  10. 物质使用障碍 - Substance Use Disorders (如: 酒精使用障碍 Alcohol Use Disorder)

神经退行性疾病:

  1. 阿尔茨海默病 - Alzheimer's Disease (AD)
  2. 帕金森病 - Parkinson's Disease (PD)
  3. 亨廷顿病 - Huntington's Disease (HD)
  4. 肌萎缩侧索硬化症 - Amyotrophic Lateral Sclerosis (ALS)
  5. 额颞叶变性 - Frontotemporal Lobar Degeneration (FTLD)
  6. 路易体痴呆 - Dementia with Lewy Bodies (DLB)
  7. 多发性硬化症 - Multiple Sclerosis (MS)
  8. 脊髓小脑变性 - Spinocerebellar Degeneration (SCD)
  9. 神经性系统性淀粉样变性 - Prion Diseases (如: 克雅氏病 Creutzfeldt-Jakob Disease, CJD)
  10. 神经纤维瘤病 - Neurofibromatosis

请注意,这个列表并不全面,精神疾病和神经退行性疾病的种类繁多,每种疾病都有其特定的临床表现、病理特征和治疗方法。

针对酒精成瘾、精神疾病、神经退行性疾病等状况进行血液样本的转录组测序,并与正常对照组的血液样本进行比较,可以揭示与这些疾病相关的基因表达变化。然而,不同分组的转录组全局表达量的差异程度可能会有显著差异,这主要取决于以下几个因素:

  1. 疾病严重程度:疾病或成瘾的严重程度可能会影响基因表达的差异性。例如,重度酒精成瘾患者可能表现出与轻度患者不同的基因表达模式。
  2. 疾病阶段:不同疾病阶段的基因表达谱可能有所不同。例如,在精神疾病的早期阶段可能观察到的基因表达变化与慢性阶段或治疗后的表达变化不同。
  3. 疾病类型:不同类型的精神疾病或神经退行性疾病可能影响不同的生物学途径和基因集,导致基因表达的差异性。
  4. 样本选择:血液样本的类型(如全血、PBMCs等)和采集、处理方法可能会影响转录组数据的质量。
  5. 对照组的选择:对照组的健康状况、年龄、性别和遗传背景等因素需要与病例组匹配,以减少混杂因素的影响。
  6. 环境和生活方式因素:吸烟、饮食、睡眠和压力等生活方式因素也可能影响基因表达,并可能在病例组和对照组之间产生差异。
  7. 药物使用:酒精成瘾患者或其他精神疾病患者可能正在接受药物治疗,这可能会影响基因表达模式。
  8. 个体差异:即使在相同的疾病条件下,不同个体之间也可能存在显著的基因表达差异。
  9. 数据的统计分析:转录组数据的分析方法,包括差异表达分析、通路分析和多变量分析等,也会影响对全局表达差异的解释。

因此,虽然可以预期在这些疾病状态下会观察到与正常对照组相比的基因表达差异,但具体的差异程度需要通过实验和统计分析来确定。通过这些分析,研究人员可以识别与特定疾病相关的生物标志物,并进一步了解疾病的分子机制,为诊断、治疗和疾病管理提供信息。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 病人的血液组织本来就没有病人本身的病人的发病部位差异大
  • 一定要找差异怎么办呢
  • 精神类疾病本来就很难影响全身的血液或者大脑区域
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档