DRUGAI
今天为大家介绍的是来自以色列Weizmann科学研究所的Leeat Keren团队发表的一篇论文。要想深入了解人体组织的结构和功能,科学家们需要在不破坏细胞空间排列的情况下,精确测量每个细胞中多种蛋白质的含量。传统的成像技术需要为每种蛋白质都设置独立的观测通道,这种方法效率低下,难以大规模应用。为解决这一难题,研究人员开发出了一种名为“组合多重染色技术”(CombPlex)的创新方法。这项技术通过巧妙的组合设计和人工智能算法,可以大幅提升单次观测中能够检测的蛋白质数量。具体来说,它允许每种蛋白质在多个通道中同时显影,而每个通道又可以包含多种蛋白质的叠加信号。随后,通过深度学习技术,这些复杂的叠加信号可以被精确地还原出每种蛋白质的独立图像。实验证明,这种方法可以将22种蛋白质的信号压缩到仅需5个观测通道,并能准确还原每种蛋白质的分布情况。研究团队在荧光显微镜和基于质量检测的成像系统中都验证了这一技术的可行性,并成功将其应用于多种组织和癌症样本的研究。最重要的是,这项技术无需特殊的仪器设备,可以广泛应用于各类现有的成像系统,大大提升了蛋白质检测的效率。
免疫组织化学(Immunohistochemistry, IHC)是一项重要的病理学检测技术,它通过使用抗体来观察组织切片中蛋白质的分布情况,对疾病诊断、临床决策和科学研究都起着关键作用。然而,这项技术面临着重要的瓶颈:传统的显色法一次只能观察1-2种蛋白质,而标准的免疫荧光技术由于不同荧光染料发出的光会相互干扰,一次最多只能同时观察3-5种蛋白质。目前的多重成像技术主要有两类:一类是基于质谱的方法,使用重金属标记抗体,但这需要昂贵的仪器设备,且受限于可用的金属标记种类;另一类是循环荧光方法,通过多轮成像来检测更多蛋白质,但这种方法耗时长,且可能损坏组织样本。
图 1
如图1所示,传统方法(图1a)需要为每种蛋白质设置独立的检测通道,这严重限制了可同时检测的蛋白质数量。而新型的组合方法(图1b)则通过巧妙设计,让每种蛋白质可以用多个通道的独特组合来标记,大大提高了检测效率。这种组合编码方法在检测RNA分子时已经取得成功,可以同时检测数千种RNA。但由于蛋白质在细胞中的数量通常比RNA多约1万倍,传统的单分子识别方法在蛋白质检测中并不适用。CombPlex技术通过深度神经网络学习,可以从组合压缩的信号中重建单个蛋白质图像,在使用3个荧光通道检测7种蛋白质时达到很高的准确度(F1>0.97,R>0.93),使用5个通道可以准确测量22种蛋白质。
组合通道多路复用赋能蛋白质成像
CombPlex技术开创性地提出了一种新的蛋白质检测方法。在这种方法中,即使使用较少的检测通道,也能观察到更多种类的蛋白质。比如说,在荧光显微镜中,一个检测通道就相当于一种颜色;在质谱成像中,则对应某个特定的质量范围。这项技术的核心在于巧妙的组合设计:每种蛋白质都用多个通道的独特组合来标记,就像给每种蛋白质分配了一个独特的“身份证号”。通过这种方式,使用3种颜色就能识别7种不同的蛋白质,如果有40个检测通道,理论上甚至可以识别高达1012种目标。虽然实际应用会受到抗体可得性、成本等因素的限制,但这种方法仍然大大提升了多重检测的能力。
更重要的是,CombPlex充分利用了蛋白质在细胞中分布的几个关键特点:
正是利用这些特点,即使在多种蛋白质的信号混合在一起的情况下,研究人员开发的算法也能准确地识别出每种蛋白质的分布情况,就像经验丰富的生物学家能够凭经验分辨不同蛋白质的信号一样。
CombPlex在模拟实验中重建压缩图像
为了验证CombPlex技术的可行性,研究团队首先进行了计算机模拟实验。他们使用了一个已发表的数据集,这些数据来自使用循环荧光共检测技术(CODEX)对结直肠癌样本进行的观察,包含41个观察视野(Field of View, FOV)中22种蛋白质的分布信息。
图 2
如图2所示,研究人员首先尝试了传统的数据压缩方法,但效果并不理想。随后,他们开发出了一种创新的混合方法:使用两个深度学习网络配合工作,一个负责确定不同蛋白质在图像中的具体位置,另一个则负责还原每个位置的信号强度。这种方法就像两个专家在协作,一个告诉你“这里有什么蛋白质”,另一个告诉你“这个蛋白质的含量有多少”。
实验结果表明,这种方法的准确度非常高:
研究人员还探索了如何优化这项技术:
这些模拟实验的结果证明,CombPlex技术确实能够将多种蛋白质的信号压缩到较少的检测通道中,并通过人工智能算法准确地还原出每种蛋白质的分布情况。
CombPlex重建压缩的荧光图像
在计算机模拟验证成功后,研究团队开始进行实际实验。考虑到大多数荧光显微镜只能同时观察3种颜色,他们设计了一个将7种蛋白质的信号压缩到3个通道的方案。
图 3
如图3所示,他们精心选择了7种在肿瘤诊断中经常使用的重要蛋白质:
这些蛋白质的选择具有特殊意义:它们不仅分布在细胞的不同位置(细胞核、细胞质和细胞膜),而且信号强度各不相同,有些蛋白质还会同时出现在同一位置,这些特点使它们成为检验CombPlex技术的理想目标。实验在66位乳腺癌患者的组织样本上进行,每位患者取两个样本,共计132个样本。研究人员使用特殊的荧光染料将多种抗体标记在同一个检测通道中。结果表明,这种方法不会影响各个抗体的检测效果,压缩后的图像也准确保留了预期蛋白质的信号。更令人兴奋的是,CombPlex不仅在训练数据中表现出色,而且能够适应不同类型的组织。研究团队用乳腺癌、结直肠癌和肺癌的样本训练模型后,发现它不仅能准确分析这些癌症的新样本,还能成功应用于从未见过的胰腺导管腺癌样本。这种跨组织的适应能力,证明了该技术具有广泛的实际应用价值。
CombPlex支持大规模压缩
在成功实现将7种蛋白质压缩到3个通道的小规模实验后,研究团队开始挑战更具难度的任务:将22种蛋白质的信号压缩到5个通道中。这意味着每个通道需要同时检测9-10种蛋白质,压缩效率提高了4.5倍。
图 4
如图4所示,实验在乳腺癌组织微阵列(Tissue Microarray, TMA)上进行。这种技术可以在一张玻片上同时分析多个组织样本,大大提高了实验效率。研究团队使用113个样本训练模型,另外30个样本用于测试模型的表现。结果显示,CombPlex在重建单个蛋白质分布图像时达到了很高的准确度(95%的准确率,98%的相关性)。
为了深入了解这项技术的优缺点,研究人员详细分析了预测中的错误。漏报(False Negative)说明实际存在蛋白质但未被检测到的位置,而误报(False Positive)则说明实际不存在蛋白质但被错误检测到的位置。分析发现,这些错误主要出现在真实信号边缘的低强度区域,约64%的错误都位于正确识别区域的两个像素范围内。更重要的是,研究人员还验证了这些微小的错误是否会影响实际应用。他们使用专业的细胞识别软件Mesmer对图像进行分析,这个软件能够通过细胞核和细胞膜的标记精确地勾勒出每个细胞的轮廓。结果表明,无论是使用原始图像还是CombPlex重建的图像,都能得到几乎相同的细胞识别结果(99%的一致性)。
在对各种蛋白质的表达情况进行分类时,CombPlex重建的图像也展现出极高的可靠性,其分类结果与原始图像的一致性达到99%。这意味着,即使重建过程中存在一些细微的误差,也不会影响科研人员对细胞类型和状态的判断。这些结果证明,CombPlex不仅能够在技术上实现大规模的信号压缩和重建,更重要的是,它的表现完全满足实际研究的需求。
CombPlex重建压缩质谱图像
图 5
目前广泛使用的多重成像技术主要分为两大类:荧光显微镜和基于质谱的成像。在验证了CombPlex在荧光成像中的效果后,如图5所示,研究团队开始探索它在飞行时间多重离子束成像(MIBI-TOF)中的应用。这种技术通过检测金属标记的抗体来识别不同的蛋白质,就像用不同重量的标签来区分不同的物品。一个重要的发现是,研究人员可以使用已有的实验数据来训练模型。他们收集了181张来自乳腺癌、肺癌和黑色素瘤的图像。这些图像来自不同的实验室、不同的研究人员,使用不同批次的抗体和仪器获得。对于黑色素瘤样本,由于缺少角蛋白的数据,研究人员使用了Melan A(一种黑色素瘤标志物)的数据代替,因为这两种蛋白质都能标记肿瘤细胞,且染色模式相似。研究团队开发出了一种创新的方法:通过将多种金属按预定比例装载到聚合物载体上,再将这些载体与抗体结合,从而实现在一个检测通道中同时识别多种蛋白质。例如,在质量数为144的检测通道中,可以同时检测到αSMA、角蛋白、Ki67和HLA-II等多种蛋白质的信号。
在19个乳腺癌和肺癌样本的测试中,CombPlex展现出优异的性能。其重建准确率达到94%,与原始图像的相关性达到94%,并且在细胞分类任务中的准确率达到97%。更令人兴奋的是,当应用于高分辨率图像(每个像素约140纳米,相当于显微镜40倍放大的效果)时,CombPlex的表现更加出色,准确率达到98%。这些结果表明,CombPlex不仅适用于质谱成像技术,而且能够利用各种现有的实验数据进行训练,这大大提高了该技术的实用性。更重要的是,同一个模型可以适用于不同类型的组织和疾病,显示出广泛的应用前景。
探究CombPlex的关键因素
图 6
如图6所示,为了深入理解CombPlex技术的工作原理,研究团队对其性能进行了全面分析。他们发现该技术的成功依赖于几个关键因素:
首先,人工智能网络确实学会了理解压缩方案。当使用与训练时不同的压缩方案时,重建准确率会从97%骤降至1.5%,这证明网络已经深入理解并记住了原始的压缩规则。其次,图像中的空间信息极其重要。在正常情况下,蛋白质的分布是连续的,比如一个细胞核中的蛋白质会形成一个完整的区域。研究人员通过打乱图像中不同大小的区块来测试这一点。研究发现,当保持较大区块(约16×16个观察点)完整时,重建准确率仍能达到96%。
但当完全打乱到单个观察点级别时,准确率降至24% 这说明网络依赖于蛋白质分布的连续性特征来进行重建。第三,网络能够学习不同蛋白质的特征分布模式。例如,即使在信号混合的情况下,网络也能准确区分Ki67(主要在细胞核中)和αSMA(主要在细胞质中)的分布,准确率高达99%。
更令人欣喜的是,这项技术表现出很强的容错能力。即使某些抗体完全失效(在实验中经常遇到的问题),也不会影响其他蛋白质的重建效果。甚至在同时有9个抗体(总共22个中)失效的情况下,对其余蛋白质的重建仍然准确。这意味着一个训练好的大型模型可以灵活应用于不同的实验方案。然而,该技术也有其局限性。当遇到训练数据中没有出现过的生物学现象时,比如某些肿瘤细胞异常表达HLA-II蛋白的情况,重建的准确率会有2-9%的下降。这提醒我们,训练数据需要尽可能覆盖各种可能出现的生物学现象。总的来说,CombPlex的成功依赖于它对压缩方案的理解、对蛋白质分布特征的把握,以及对常见生物学规律的学习。虽然它能够很好地处理技术性问题(如抗体失效),但对于新的生物学发现,还需要通过扩充训练数据来不断提高其适应能力。
讨论
CombPlex技术突破了传统蛋白质成像方法中“一个通道只能检测一种蛋白质”的限制。理论上,C个检测通道可以检测多达2C-1种蛋白质。例如,三色荧光显微镜可以检测7种蛋白质,七色成像仪则可以检测数十种蛋白质。该技术通过深度学习算法,能够以90%以上的准确率从混合信号中还原出单个蛋白质的分布图像。虽然CombPlex仍面临一些技术挑战,如单通道可压缩蛋白质数量的上限、抗体配置方法的优化等,但研究表明它具有良好的适应性和扩展潜力。未来,通过建立大型预训练模型和标准化的抗体组合方案,这项技术有望实现蛋白质组规模的原位检测,为病理学研究带来革命性突破。
编译|于洲
审稿|王梓旭
参考资料
Ben-Uri R, Ben Shabat L, Shainshein D, et al. High-dimensional imaging using combinatorial channel multiplexing and deep learning[J]. Nature Biotechnology, 2025: 1-14.