近年来,组学技术的发展,如单细胞RNA测序和空间转录组学,不仅提供了详细的基因组数据,还结合了组织的组织学特征。然而,现有的计算模型主要集中在组学或图像分析上,缺乏对这两者的整合。25年4月15日发表在Nature Methods上的文章《A visual–omics foundation model to bridge histopathology with spatial transcriptomics》开发了一个将组织病理学与空间转录组学结合的视觉-组学基础模型,首次实现病理图像与空间转录组学的整合,为精准医学提供可扩展的多模态分析框架。
图1a表示通过对比学习,使用从113个研究中收集的图像-转录组学数据集对OmiCLIP模型进行预训练的工作流程。
图1b为Loki平台的工作流程,使用OmiCLIP基础模型作为引擎。左侧图表示不同器官的训练数据量,右侧图表示Loki五大功能模块,包括组织对齐、细胞类型分解、组织注释、ST基因表达预测和组织学图像-转录组学检索。
图1c的热图展示了不同器官及疾病状态下图像嵌入与转录组嵌入的相似性。其中红色代表高相似度,蓝色代表低相似度。
图1d为Loki平台用于3D组织分析的迁移学习示意图。Loki可以作为基础结构,高效地将scRNA-seq、bulk RNA-seq甚至marker gene等转录组学数据,通过预训练模型OmiCLIP转化为病理图像分析,简化工作流程,加速分析过程,并在三维(3D)组织研究和病理诊断等研究领域降低测序成本。
图2a为使用ST和组织学图像进行组织对齐的示意图。首先,使用OmiCLIP转录组数据或 H&E 图像嵌入到一个768 维的空间。然后,应用改进的CPD方法来对齐两组嵌入数据。该方法在保持概率分布和拓扑结构的前提下,对两组嵌入进行对齐。为确保与可能未在ST-bank中充分代表的数据兼容,Tissue Alignment在对齐任务中默认使用微调。微调通过最小化图像嵌入与配对的文本嵌入之间的对比损失来实现。
图2b在100个低噪声和100个高噪声的模拟数据集上,分别比较了Loki (ST-to-ST和image to ST)以及PASTE ST-to-ST和GPSA ST-to-ST的组织对齐的性能。Loki的ST-to-ST和image to ST方法显著高于PASTE和GPSA。
图3c进一步测试了Tissue Alignment。数据集为8个相邻正常人小肠组织切片(Visium 空间转录组数据),存在真实世界的扭曲:旋转、倾斜、切片不平整、组织碎片缺失。以其中1个切片为目标(Target),其余7个为源(Source 1-7),需对齐到目标。
将Loki(ST-to-ST和Image-to-ST)与其他基线方法PASTE ST-to-ST、GPSA ST-to-ST和CPD+PCA(使用PCA降维的转录组嵌入)进行比较,衡量对齐后Source与Target基因表达的线性相关性(PCC)。
结果显示,Loki(ST-to-ST和Image-to-ST)的所有切片精准对齐,保持小肠绒毛-隐窝结构的连续性;PASTE ST-to-ST的Source 1-3出现异常旋转,破坏拓扑结构;GPSA ST-to-ST的Source 2因无空间变异基因而失败(标记为NA),其余切片存在严重扭曲。
图3d、e评估了Loki与其他方法在两个相邻的人类卵巢癌肉瘤切片上的表现。金标准(Ground truth)为病理专家手动对齐,其中,Loki Image-to-ST的肿瘤核心(深红色)与基质(绿色)精准对齐,跨模态对齐成功;Loki ST-to-ST的空间转录组斑点位置与目标一致,表现出同模态内对齐性能最优。箱线图通过PCC和Kendall's tau(空间位置秩序一致性)两个指标定量对比Loki与其他方法的性能。
图3a为使用H&E图像和不同组织来源的bulk RNA-seq数据进行组织注释的示意图。
全切片H&E 图像(WSI)被分割为与Visium斑点匹配的组织斑块(Tissue Patches),来自不同组织类型的bulk RNA-seq 参考数据被转换成基因句子,分别输入OmiCLIP的图像编码器和文本编码器,生成768维的嵌入向量。计算每个图像嵌入向量与所有参考转录组嵌入向量的余弦相似度。相似度值越高,表明该组织类型的存在程度越强。斑块被标注为与其相似度最高的参考组织类型。
图3b为乳腺癌、心力衰竭和正常乳腺样本的组织学微阵列扫描图像(WSI)。病理专家用黑色线条标注了主要肿瘤区域、富含成纤维细胞的区域以及脂肪区域。热图展示了这些WSI与相应的参考bulk RNA-seq数据的相似性,其中颜色反映了WSI与参考bulk RNA-seq数据的相似程度,红色表示高相似度,蓝色表示低相似度。CLAM注意力热图是使用CLAM软件默认参数生成的。
Loki通过使用组织类型特异性的bulk RNA-seq数据作为参考,有效地注释了H&E图像。
图4a为使用H&E图像和参考marker基因进行组织注释的示意图。
当无法使用bulk RNA-seq时,Loki可以通过预定义的marker基因来注释组织。与bulk RNA-seq方法类似,我们使用OmiCLIP技术从组织学图像中编码组织斑块,并根据marker基因列表生成基因句子。组织类型的注释是通过计算归一化文本嵌入与H&E图像嵌入的点积得出的余弦相似度来确定的,最高余弦相似度得分被指定为查询图像的预测组织(图4a上半部分)。
我们对四个基准组织病理学数据集应用了Loki,使用F1分数评估了注释性能,并将结果与OpenAI CLIP模型(图4a下半部分)进行了比较。
图4b、c显示Loki在4个数据集上的表现均由于OpenAI CLIP。
图4d、e、f探讨了将Loki与PLIP(一种用于病理图像分析的视觉-语言基础模型)结合能否在不增加额外训练的情况下提高注释性能。总体而言,PLIP的表现与Loki相当(Loki略优于PLIP),结合Loki和PLIP的方法比单独使用任一方法更能提升整体性能。
细胞类型分解可以理解为空转中的反卷积。图5a为Loki细胞类型分解的示意图。
Step1:为了分解人类结直肠癌切片,我们利用配对的Visium ST数据和H&E图像对OmiCLIP进行了微调。
Step2:使用微调后的OmiCLIP文本编码器对scRNA-seq数据进行编码,并使用图像编码器对H&E图像进行编码。我们采用由Tangram实现的非凸优化算法,将scRNA-seq数据的OmiCLIP嵌入与ST数据或H&E图像的嵌入进行配准。目标是得到每个斑点/斑块的细胞类型概率分布。
本文用三组实验验证了Loki细胞类型分解的有效性。图片不一一展示,感兴趣可自行了解。
案例1:三阴性乳腺癌(TNBC)(图5b-d)。使用Xenium单分子原位数据作为金标准,Loki图像模式精准还原上皮、免疫、基质空间结构,与Xenium一致。使用JS散度、SSIM和影响分数对12种分解方法的性能进行了比较,Loki(ST模式)和Loki(图像模式)分别为第一、第二。
案例2:结直肠癌(图5e-g)。20mm²结直肠癌H&E切片能够精准定位肿瘤、成纤维细胞、免疫浸润,与病理标注和CLAM注意力图一致。
案例3:脑组织(图5h)。传统病理无法区分皮层亚层,Loki分解出6类细胞:VLMC/星形胶质细胞(L1)、兴奋性神经元(L2/3,L4/5,L6)、白质(WM),其空间分布符合已知脑解剖学。
图6a为ST-bank数据集上图像到转录组学检索的示意图。
用户提供H&E 图像斑块,通过OmiCLIP图像编码器生成 768维图像嵌入,在ST-bank 数据集(220万对数据)中,计算查询图像嵌入与所有转录组嵌入的余弦相似度,返回Top 50 最相似转录组及其配对图像(按相似度排序)(图6b)。相似度 > 0.7 视为有效匹配。
图6c表示在四个验证数据集(CRC7K结直肠癌、WSSS4LUAD肺腺癌、LC25000肺/结肠、PatchCamelyon淋巴结)中,Loki、OpenAI CLIP和PLIP进行图像到转录组学的检索相似性评分。Loki相似度显著高于OpenAI CLIP和PLIP,表明Loki具有在跨器官、跨疾病场景中稳定检索的能力。
图6d表示在八组内部临床样本(心力衰竭HF1-4、阿尔茨海默病AD1-2、化生性乳腺癌MPBC、三阴性乳腺癌TNBC)中,Loki与其他方法得到的检索相似性评分。Loki相似度显著高于其他方法,尤其是神经退行性疾病样本中。
图6e使用Recall@K(top K%结果中正确配对的比例)来衡量检索效率。Loki 在 Recall@5% 和 Recall@10% 上均超越其他方法(P<0.01),证明其在少量检索结果中即可命中目标。
图6f中,用户输入形态学上难以分型的晚期卵巢癌 H&E 斑块,其Top 1匹配为浆液性癌,提示可能存在同源重组缺陷(HRD),指导临床使用PARP抑制剂。
本文展示了基础模型如何弥合组学与影像的鸿沟,为低成本、高通量的病理分析提供基础架构,同时为多模态AI在生物医学的落地提供范式参考。
总结:OmiCLIP 与 Loki 平台打通了组织形态与分子组学的关联,为病理学、肿瘤学和神经科学提供了多任务分析基础结构,显著降低空间转录组实验依赖,推动精准医学发展。