首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >空间转录组学习笔记-第6周(病理+空转强强联合)

空间转录组学习笔记-第6周(病理+空转强强联合)

作者头像
生信菜鸟团
发布2025-06-25 08:57:48
发布2025-06-25 08:57:48
6010
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

近年来,组学技术的发展,如单细胞RNA测序和空间转录组学,不仅提供了详细的基因组数据,还结合了组织的组织学特征。然而,现有的计算模型主要集中在组学或图像分析上,缺乏对这两者的整合。25年4月15日发表在Nature Methods上的文章《A visual–omics foundation model to bridge histopathology with spatial transcriptomics》开发了一个将组织病理学与空间转录组学结合的视觉-组学基础模型,首次实现病理图像与空间转录组学的整合,为精准医学提供可扩展的多模态分析框架。

一、文献概述

  1. 我们开发了OmiCLIP,这是一种视觉-组学基础模型,通过使用Visium数据中的组织切片,将H&E染色图像与转录组学数据连接起来。我们整理了一个包含220万对组织图像和转录组数据的ST-bank数据集,这些数据来自32个器官,用于训练OmiCLIP,整合组织学和转录组学信息。
  2. 基于OmiCLIP,我们的Loki平台提供了五项核心功能:组织对齐、组织注释、细胞类型分解、跨模态检索以及基因表达预测。
  3. 与22个最先进的模型在5个模拟实验和19个公共数据集及4个内部实验数据集上的表现相比,Loki展现了稳定且一致的准确性和稳健性。

二、OmiCLIP核心架构和Loki平台五大功能模块

图1a表示通过对比学习,使用从113个研究中收集的图像-转录组学数据集对OmiCLIP模型进行预训练的工作流程。

  1. 数据预处理
    • 转录组数据:将来自不同研究中收集的数据去除批次效应后,将所有Ensembl gene ID转换成gene symbol并去除管家基因,选取每个组织斑块(patch)中表达量最高的 50 个gene symbol,拼接为空格分隔的基因句子(例如:"SNAP25 ENO2 CRB ... MTOR")。
    • 图像数据:将 H&E 全切片图像裁剪为与空间转录组(ST)斑点对应的区域
  2. 双模态编码器
    • 图像编码器:基于 Vision Transformer (ViT),输入为 H&E 染色组织切片图像(尺寸 224×224 像素)。
    • 文本编码器:基于 Transformer,输入为转录组数据转换的gene symbol句子。
  3. 对比学习对齐
    • 图像和基因句子通过编码器映射到共享的 768 维嵌入空间
    • 优化目标:最大化配对图像-转录组嵌入的余弦相似度。
图片
图片

图1b为Loki平台的工作流程,使用OmiCLIP基础模型作为引擎。左侧图表示不同器官的训练数据量,右侧图表示Loki五大功能模块,包括组织对齐、细胞类型分解、组织注释、ST基因表达预测和组织学图像-转录组学检索。

图1c的热图展示了不同器官及疾病状态下图像嵌入与转录组嵌入的相似性。其中红色代表高相似度,蓝色代表低相似度。

图1d为Loki平台用于3D组织分析的迁移学习示意图。Loki可以作为基础结构,高效地将scRNA-seq、bulk RNA-seq甚至marker gene等转录组学数据,通过预训练模型OmiCLIP转化为病理图像分析,简化工作流程,加速分析过程,并在三维(3D)组织研究和病理诊断等研究领域降低测序成本。

图片
图片

三、Loki平台主要功能模块详细解读

1. 组织对齐(Tissue Alignment)

图2a为使用ST和组织学图像进行组织对齐的示意图。首先,使用OmiCLIP转录组数据或 H&E 图像嵌入到一个768 维的空间。然后,应用改进的CPD方法来对齐两组嵌入数据。该方法在保持概率分布和拓扑结构的前提下,对两组嵌入进行对齐。为确保与可能未在ST-bank中充分代表的数据兼容,Tissue Alignment在对齐任务中默认使用微调。微调通过最小化图像嵌入与配对的文本嵌入之间的对比损失来实现。

图2b在100个低噪声和100个高噪声的模拟数据集上,分别比较了Loki (ST-to-ST和image to ST)以及PASTE ST-to-STGPSA ST-to-ST的组织对齐的性能。Loki的ST-to-ST和image to ST方法显著高于PASTEGPSA

图片
图片

图3c进一步测试了Tissue Alignment。数据集为8个相邻正常人小肠组织切片(Visium 空间转录组数据),存在真实世界的扭曲:旋转、倾斜、切片不平整、组织碎片缺失。以其中1个切片为目标(Target),其余7个为源(Source 1-7),需对齐到目标。

将Loki(ST-to-ST和Image-to-ST)与其他基线方法PASTE ST-to-STGPSA ST-to-STCPD+PCA(使用PCA降维的转录组嵌入)进行比较,衡量对齐后Source与Target基因表达的线性相关性(PCC)。

结果显示,Loki(ST-to-ST和Image-to-ST)的所有切片精准对齐,保持小肠绒毛-隐窝结构的连续性;PASTE ST-to-ST的Source 1-3出现异常旋转,破坏拓扑结构;GPSA ST-to-ST的Source 2因无空间变异基因而失败(标记为NA),其余切片存在严重扭曲。

图片
图片

图3d、e评估了Loki与其他方法在两个相邻的人类卵巢癌肉瘤切片上的表现。金标准(Ground truth)为病理专家手动对齐,其中,Loki Image-to-ST的肿瘤核心(深红色)与基质(绿色)精准对齐,跨模态对齐成功;Loki ST-to-ST的空间转录组斑点位置与目标一致,表现出同模态内对齐性能最优。箱线图通过PCC和Kendall's tau(空间位置秩序一致性)两个指标定量对比Loki与其他方法的性能。

图片
图片

2. 组织注释(Tissue Annotation)

①使用bulk RNA-seq数据进行组织注释

图3a为使用H&E图像和不同组织来源的bulk RNA-seq数据进行组织注释的示意图。

全切片H&E 图像(WSI)被分割为与Visium斑点匹配的组织斑块(Tissue Patches),来自不同组织类型的bulk RNA-seq 参考数据被转换成基因句子,分别输入OmiCLIP的图像编码器和文本编码器,生成768维的嵌入向量。计算每个图像嵌入向量与所有参考转录组嵌入向量的余弦相似度。相似度值越高,表明该组织类型的存在程度越强。斑块被标注为与其相似度最高的参考组织类型。

图片
图片

图3b为乳腺癌、心力衰竭和正常乳腺样本的组织学微阵列扫描图像(WSI)。病理专家用黑色线条标注了主要肿瘤区域、富含成纤维细胞的区域以及脂肪区域。热图展示了这些WSI与相应的参考bulk RNA-seq数据的相似性,其中颜色反映了WSI与参考bulk RNA-seq数据的相似程度,红色表示高相似度,蓝色表示低相似度。CLAM注意力热图是使用CLAM软件默认参数生成的。

Loki通过使用组织类型特异性的bulk RNA-seq数据作为参考,有效地注释了H&E图像。

图片
图片
②使用marker基因进行组织注释

图4a为使用H&E图像和参考marker基因进行组织注释的示意图。

当无法使用bulk RNA-seq时,Loki可以通过预定义的marker基因来注释组织。与bulk RNA-seq方法类似,我们使用OmiCLIP技术从组织学图像中编码组织斑块,并根据marker基因列表生成基因句子。组织类型的注释是通过计算归一化文本嵌入与H&E图像嵌入的点积得出的余弦相似度来确定的,最高余弦相似度得分被指定为查询图像的预测组织(图4a上半部分)。

我们对四个基准组织病理学数据集应用了Loki,使用F1分数评估了注释性能,并将结果与OpenAI CLIP模型(图4a下半部分)进行了比较。

图片
图片

图4b、c显示Loki在4个数据集上的表现均由于OpenAI CLIP。

图4d、e、f探讨了将Loki与PLIP(一种用于病理图像分析的视觉-语言基础模型)结合能否在不增加额外训练的情况下提高注释性能。总体而言,PLIP的表现与Loki相当(Loki略优于PLIP),结合Loki和PLIP的方法比单独使用任一方法更能提升整体性能。

图片
图片

3. 细胞类型分解(Cell-type decomposition)

细胞类型分解可以理解为空转中的反卷积。图5a为Loki细胞类型分解的示意图。

Step1:为了分解人类结直肠癌切片,我们利用配对的Visium ST数据和H&E图像对OmiCLIP进行了微调。

Step2:使用微调后的OmiCLIP文本编码器对scRNA-seq数据进行编码,并使用图像编码器对H&E图像进行编码。我们采用由Tangram实现的非凸优化算法,将scRNA-seq数据的OmiCLIP嵌入与ST数据或H&E图像的嵌入进行配准。目标是得到每个斑点/斑块的细胞类型概率分布

图片
图片

本文用三组实验验证了Loki细胞类型分解的有效性。图片不一一展示,感兴趣可自行了解。

案例1:三阴性乳腺癌(TNBC)(图5b-d)。使用Xenium单分子原位数据作为金标准,Loki图像模式精准还原上皮、免疫、基质空间结构,与Xenium一致。使用JS散度、SSIM和影响分数对12种分解方法的性能进行了比较,Loki(ST模式)和Loki(图像模式)分别为第一、第二。

图片
图片

案例2:结直肠癌(图5e-g)。20mm²结直肠癌H&E切片能够精准定位肿瘤、成纤维细胞、免疫浸润,与病理标注和CLAM注意力图一致。

案例3:脑组织(图5h)。传统病理无法区分皮层亚层,Loki分解出6类细胞:VLMC/星形胶质细胞(L1)、兴奋性神经元(L2/3,L4/5,L6)、白质(WM),其空间分布符合已知脑解剖学。

4. 组织学图像-转录组学检索(Histology Image-Transcriptomics Retrieval)

图6a为ST-bank数据集上图像到转录组学检索的示意图。

用户提供H&E 图像斑块,通过OmiCLIP图像编码器生成 768维图像嵌入,在ST-bank 数据集(220万对数据)中,计算查询图像嵌入与所有转录组嵌入的余弦相似度,返回Top 50 最相似转录组及其配对图像(按相似度排序)(图6b)。相似度 > 0.7 视为有效匹配。

图6c表示在四个验证数据集(CRC7K结直肠癌、WSSS4LUAD肺腺癌、LC25000肺/结肠、PatchCamelyon淋巴结)中,Loki、OpenAI CLIP和PLIP进行图像到转录组学的检索相似性评分。Loki相似度显著高于OpenAI CLIP和PLIP,表明Loki具有在跨器官、跨疾病场景中稳定检索的能力。

图6d表示在八组内部临床样本(心力衰竭HF1-4、阿尔茨海默病AD1-2、化生性乳腺癌MPBC、三阴性乳腺癌TNBC)中,Loki与其他方法得到的检索相似性评分。Loki相似度显著高于其他方法,尤其是神经退行性疾病样本中。

图6e使用Recall@K(top K%结果中正确配对的比例)来衡量检索效率。Loki 在 Recall@5% 和 Recall@10% 上均超越其他方法(P<0.01),证明其在少量检索结果中即可命中目标。

图6f中,用户输入形态学上难以分型的晚期卵巢癌 H&E 斑块,其Top 1匹配为浆液性癌,提示可能存在同源重组缺陷(HRD),指导临床使用PARP抑制剂。

图片
图片
图片
图片

三、总结

本文展示了基础模型如何弥合组学与影像的鸿沟,为低成本、高通量的病理分析提供基础架构,同时为多模态AI在生物医学的落地提供范式参考。

  1. OmiCLIP是首个整合组织病理学图像与转录组学的基础模型,突破了传统模型(如PLIP/CONCH)仅结合图像与自然语言的局限。通过将基因表达数据转化为“基因句子”,模型直接捕获分子生物学特征,弥补了自然语言描述缺乏分子机制的不足。
  2. Loki平台的五大功能(组织对齐、组织注释、细胞类型分解、跨模态检索、基因表达预测)在多个数据集上超越22种SOTA模型。相比资源密集型模型(如HisToGene),Loki无需重复训练,大幅降低硬件需求。
核心应用方向:
  1. 组织对齐(Tissue Alignment):能精确配准多张组织切片(H&E 图像之间、空间转录组数据之间、或跨模态的 H&E 图像与空间转录组数据)。可以用于三维组织重建、跨技术平台数据整合(如 Visium 与 Xenium 数据对齐)。
  2. 组织注释(Tissue Annotation):使用特定组织的bulk RNA-seq数据或预定义的marker基因,基于 H&E 图像自动识别组织类型或病理区域。结合语言模型(PLIP)可提升分类准确率 10%。
  3. 细胞类型分解(Cell-type Decomposition):结合scRNA-seq参考数据,从 H&E 图像或空间转录组数据推断细胞组成比例。仅需 H&E 图像即可替代部分空间转录组实验,降低成本。
  4. 跨模态检索(Image-to-Transcriptomics Retrieval):输入 H&E 图像,检索相似转录组特征的数据库样本,能够快速匹配病理图像与分子特征(如阿尔茨海默病、心力衰竭样本)。
  5. 基因表达预测(ST Gene Expression Prediction):通过加权聚合参考转录组数据(权重由嵌入相似性决定),直接由 H&E 图像预测空间基因表达谱。避免资源密集型训练(比 HisToGene 节省 90% 计算时间)。
局限:
  1. ST-bank数据集包含220万对图像-转录组样本(来自32种器官),虽已是病理领域大规模数据集,但相比通用视觉语言模型(如CLIP)的十亿级训练数据(如LAION-5B)仍显不足。可能限制模型的泛化能力,尤其对罕见疾病或器官的表征可能不充分。
  2. ST-bank虽涵盖32种器官,但某些罕见疾病或特殊组织类型可能未被充分覆盖,建议通过微调适配新数据集,但会增加计算成本。
  3. 当某一模态(如图像或转录组)主导时,双模态融合可能引入噪声或错位(misalignment),导致性能提升有限,比如在部分组织对齐任务中,直接融合图像与转录组嵌入未显著优于单模态。
  4. OmiCLIP基于对比学习框架,仅能通过嵌入空间检索相似转录组谱,无法直接生成精确的基因表达谱(如预测未见过的基因表达模式),需依赖检索或加权平均等替代方案。

总结:OmiCLIP 与 Loki 平台打通了组织形态与分子组学的关联,为病理学、肿瘤学和神经科学提供了多任务分析基础结构,显著降低空间转录组实验依赖,推动精准医学发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、文献概述
  • 二、OmiCLIP核心架构和Loki平台五大功能模块
  • 三、Loki平台主要功能模块详细解读
    • 1. 组织对齐(Tissue Alignment)
    • 2. 组织注释(Tissue Annotation)
      • ①使用bulk RNA-seq数据进行组织注释
      • ②使用marker基因进行组织注释
    • 3. 细胞类型分解(Cell-type decomposition)
    • 4. 组织学图像-转录组学检索(Histology Image-Transcriptomics Retrieval)
  • 三、总结
    • 核心应用方向:
    • 局限:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档