
一篇论文,把整个人体从胚胎、健康成人到肿瘤的蛋白质分布,画成了一张可以查询的高清地图。

昨日(2026年6月17日),西湖大学郭天南团队联合多家机构在《Nature》发表重磅研究,用质谱技术系统刻画了人体的蛋白质组空间分布。这项工作横跨58种主要组织、251种精细组织亚型、25种常见癌症,外加22种胎儿组织,在2856份样本上定量了超过1.3万个蛋白。
如果说人类基因组计划绘制了人体的遗传蓝图,那么这项研究试图回答一个更贴近功能的问题:身体里成千上万种蛋白质,究竟分布在哪儿?它们在发育、健康、衰老和癌变中又是如何变化的?
下面我们用尽量通俗的方式,把这篇信息密度极高的论文拆开讲清楚。

人体蛋白质组草图总览。图中标注了本研究覆盖的全部样本类型,包括58种主要组织、各类体液、人体胚胎(外胚层、中胚层、内胚层)以及眼、耳、鼻、脑的精细取样部位,底部列出25种癌症类型。括号内数字代表各组织亚矩阵中、在超过一半样本里被定量到的蛋白数目。
这一部分稍微花点篇幅讲透,因为理解了背景,才会明白这项研究的分量。
生物学有一条最基础的规律,叫中心法则:遗传信息从DNA转录成RNA(信使分子),再翻译成蛋白质。可以打个比方:
人体里几乎所有的实际功能,从消化、呼吸、思考到免疫,都是由蛋白质完成的。更关键的是,目前绝大多数药物的作用对象,也就是药物靶点,本质上都是蛋白质。换句话说,要理解疾病、要开发药物,蛋白质才是离临床最近的那一层分子。
既然如此,为什么过去大量的研究都在测RNA(转录组),而不是直接测蛋白?
原因很现实:测RNA技术成熟、便宜、灵敏,可以很方便地一次测出成千上万个基因的表达量。所以早期建立的各种人体组织表达图谱,比如ArrayExpress、RNA-Seq Atlas、BioGPS门户,以及覆盖范围更大的GTEx项目,主要都是基于基因组和转录组数据。
但问题在于,论文中明确指出,RNA的丰度和蛋白的表达只是中等程度相关。也就是说,某个基因RNA很高,并不代表对应的蛋白就一定高。RNA量大但蛋白量小、RNA量小但蛋白量大的情况都普遍存在。这背后涉及翻译效率、蛋白降解速度、修饰加工等一系列调控。
这就带来一个尴尬的局面:我们手里那些精美的人体表达图谱,很多其实是RNA图谱,而不是真正的蛋白质图谱。可偏偏蛋白才是功能分子和药物靶点。这中间隔了一层,一直没有被很好地填上。
要直接测蛋白,主要有两条路。
第一条是基于抗体的方法,代表作是大名鼎鼎的人类蛋白质图谱(Human Protein Atlas,简称HPA)。HPA从2005年起步,用免疫组化技术,借助两万多种抗体,覆盖了几十种健康和癌症组织。它最大的优势是能看到蛋白在组织里的精确定位,哪一类细胞表达、表达在细胞的什么位置都看得见。但抗体法有个硬伤:它本质上是半定量的,很难对成千上万个蛋白做可靠的精确定量,尤其是那些没有好抗体的蛋白,根本测不了。
第二条路就是本研究采用的质谱(Mass Spectrometry,MS)。质谱可以理解为一台超高精度的分子天平加身份识别仪:它把蛋白消化成更小的肽段,根据这些肽段的质量和碎裂模式,又精确又多通道地把样本里的蛋白一网打尽,并给出定量。它是无偏的、可多重检测的、定量的。
2014年,两项里程碑式工作分别发表了人类蛋白质组的草图,覆盖了约30种组织和细胞系,鉴定到约85%人类基因编码的蛋白。此后又有研究在29种组织里测到了一万五千多个蛋白群组,以及在32种组织里定量了约一万两千个蛋白。这些工作把人体组织蛋白质组学不断往前推。
但是,这些研究普遍存在两个共同的局限,也正是本研究瞄准的缺口:
另一方面,在肿瘤领域,癌症基因组图谱(TCGA)、国际癌症基因组联盟、临床蛋白质组肿瘤分析联盟(CPTAC)等大型计划,确实积累了海量的多组学数据。但它们各自针对特定肿瘤、用不同的平台和流程,导致跨癌种之间难以直接比较,限制了人们从中看清不同癌症之间到底有什么异同。
把上面的缺口归纳一下,本研究的核心目标其实很清晰:
用同一套技术平台、同一套标准化流程,把人体几乎所有的实体组织、体液、主要癌种,以及胚胎组织,全部测一遍蛋白质组,从而得到一张可以横向比较、空间分辨的人体蛋白质地图。
为什么强调同一套平台和流程?因为只有这样,不同组织、不同癌种之间的比较才是公平的,才能尽量排除批次效应等技术噪声。这正是过去那些分散数据集做不到的。论文用了一个很形象的说法来描述这项工作的最终愿景:为人体打造一个数字导航器。
研究一共收集了2856份样本,来源相当全面:
覆盖范围包括58种健康成人组织、来自25种癌症的配对肿瘤与癌旁样本、22种胎儿组织,几乎囊括了所有实体人体组织、体液和主要癌症类型。值得一提的是,本研究的泛癌队列里包含了两种连TCGA和CPTAC都没有覆盖的罕见恶性肿瘤:胃肠道间质瘤(GIST)和输卵管癌。
这里需要解释一个关键的技术选择。质谱采集数据有两种主流模式:
本研究采用的正是DIA质谱(更准确说是timsTOF Pro仪器上的diaPASEF模式)。研究团队先用DDA构建了一个综合谱库,包含15332个蛋白群组,再用这个库去搜索DIA数据。最终在3005个质谱文件中定量到了13609个蛋白,蛋白水平的错误发现率(FDR)控制在0.1%。
为了保证如此大规模数据的可靠性,团队还用了一个叫诱饵库(entrapment)的严格策略,把人类谱图和非人类物种的谱图混在一起搜索,以此真实评估假阳性比例,确保结论站得住脚。
论文展示了多项质控结果:不同组织和样本类型之间的蛋白质组呈现出明显的异质性(也就是确实有区分度,不是糊成一团),重复样本之间高度一致,批次效应很小,整体数据质量很高。

分析流程与数据质量。a为DDA谱库构建流程,b为DIA定量分析流程,c为各样本鉴定到的蛋白与肽段数目(雷达-环形图),d、e为混合质控样本及重复样本的变异系数(CV)与皮尔逊相关性,f为方差分解(PVCA)结果,显示约66%的方差来自生物学效应、约4%来自技术与交互效应。
这是全文最具洞见的一个发现,也是最值得细品的部分。
研究团队用t-SNE对所有样本做了降维分析。t-SNE可以通俗理解为:把每个样本上万维的蛋白表达数据,压缩成一张二维散点图,让相似的样本聚在一起、不同的样本拉开距离,方便肉眼观察整体格局。
结果出现了一个非常漂亮的规律:胎儿(F)、肿瘤(T)、配对癌旁(NT)、正常成人(N)这四类样本,沿着同一个方向有序排开,顺序是 F–T–NT–N。
这个顺序本身就是一个深刻的隐喻。它对应的是组织分化程度的高低:
这呼应了一个经典认识:癌变在某种意义上是细胞向去分化、向胚胎样状态的回退。换句话说,肿瘤在蛋白质层面呈现出一种返祖倾向,发育和癌变像是沿着同一条轴线相向而行的镜像过程。

组织发育与癌变过程中的蛋白质组转变。a、b为肿瘤(T)、配对癌旁(NT)、正常成人(N)、胎儿(F)样本的t-SNE图,分别按样本类型(a)与组织类型(b)着色,可清晰看到F–T–NT–N沿坐标轴有序排列。c为轨迹相关蛋白热图,差异蛋白被聚类为M1至M8共八个共表达模块,右侧标注各模块前五位富集的GO生物学过程。
凡是规律,往往最有意思的是例外。研究发现,大脑和肝脏的肿瘤及其癌旁组织,并不老老实实地按 F–T–NT–N 排列,而是各自抱团。
为了量化这些观察,团队还用拟时序(pseudotime)轨迹分析,给每个样本沿发育轨迹打了一个相对位置分值,从而精确刻画各类组织的状态转变特征。
为了找出究竟是哪些蛋白和生物学过程在驱动这条轴,团队对所有样本做了无监督聚类,识别出八个表达模式各异的蛋白模块(M1到M8)。其中两个模块特别有代表性:
如果分别单独分析肝脏和大脑,除了同样能看到RNA剪接下降、免疫激活上升的总体趋势外,还会额外富集出组织特异的功能,比如大脑里的突触传递通路、肝脏里的代谢活动,进一步印证了器官各自的功能底色。
人体组织内部并不均匀。有些组织(比如眼睛和软骨)内部差异很大,把它们当成一个整体会丢失信息。于是团队通过计算组织内、组织间的相似度,把高度异质的组织进一步拆分,最终得到74种精细组织类型。验证显示,所有精细类型在各自类别内部的距离更近、相关性更高,分类是合理的。
降维结果还显示出一些有趣的格局:体液、睾丸、耳蜗、半规管等特殊组织会形成各自独立的聚类;而生理上相关的组织,比如外周神经、大脑、脊髓会紧密聚在一起。这说明蛋白质组确实忠实地反映了组织的生理关系。
团队按照HPA的标准,把蛋白分成六类:未检出、组织富集、组群富集、所有组织表达、组织增强、混合型。结果发现:
层次聚类还把生理相关的组织正确地聚在一起,比如大脑和脊髓。也有一些耐人寻味的例外:乳腺竟然和骨、肌腱、软骨这些富含结缔组织的组织聚到了一起。论文给出的解释是,这可能与年龄相关的乳腺萎缩有关,本研究的供者偏年长,乳腺腺泡减少,H&E染色也证实了这一点。类似地,气管和唾液腺聚到一起,可能是因为取样区域含有较多腺上皮细胞。这些细节恰恰体现了蛋白质组数据的敏感性。
本研究一共鉴定出1717个组织富集蛋白。其中749个在既往蛋白质组或转录组数据中曾被报道,而有480个来自此前研究覆盖不足的24种组织,凸显了本研究在组织覆盖上的扩展价值。
最具代表性的例子是PANX3这个蛋白。它在HPA数据库里至今被标注为未检出,而本研究却发现它是耳蜗里表达最高的组织富集蛋白。为了确认这不是误判,团队专门合成了PANX3的特异性肽段,用质谱验证了它确实存在,且确实是耳蜗特异表达的。这是一个用更全面的技术,把过去测不到的蛋白重新点亮的典型案例。
功能分析也与组织的专长高度吻合:代谢相关蛋白富集在肝脏,突触功能在大脑,减数分裂细胞周期在睾丸,心腔形态发生在心脏,晶状体发育在晶状体;而激素代谢过程则共同富集在甲状腺、肾上腺等内分泌器官中。

蛋白与药物靶点的组织特异性。a为各组织中不同特异性类别蛋白的数目(上)与丰度占比(下)柱状图,下方树状图为基于组织富集蛋白中位丰度的层次聚类。b为组织特异性药物靶点热图,并与既往人类蛋白质组草图(Wang等、TSomics、HPA免疫组化与HPA RNA数据)做对比,右侧彩条显示对应的药物数目与药物作用类型。
这一部分把基础研究和临床安全直接挂上了钩,非常实用。
药物靶点本质是蛋白。如果某个靶点蛋白在某个器官里特别富集,那么针对它的药物就更可能在那个器官产生副作用,也就是所谓的脱靶毒性。于是团队把组织富集蛋白映射到药物数据库DrugBank,找到了402个蛋白对应着2598种药物,分布在34种组织中。
分析发现,肝脏拥有最多的组织富集药物靶点。这从分子层面解释了为什么药物性肝损伤如此常见。更何况,肝脏还有一个独特的解剖学劣势:经门静脉循环,肠道吸收的药物会先直达肝脏,再进入全身循环,相当于肝脏总是最先、最高浓度地接触药物,因此格外容易受损。
一个具体例子是细胞色素P450 2C8(CYP2C8)。它在肝脏里高度富集(本研究和既往草图都证实了这一点),是多达302种药物的代谢靶点,涵盖抗病毒药、降糖药、抗癌药等。这些药多数作为它的抑制剂或底物,其中包括降脂药吉非罗齐,后者是CYP2C8的不可逆抑制剂。
后果就很严重了:如果把吉非罗齐和那些需要CYP2C8代谢的药物一起用,药物在血浆里的浓度可能升高八到十倍,引发严重毒性。临床上,它和他汀类合用会导致横纹肌溶解和急性肾损伤,和降糖药合用会导致严重低血糖。同时,肝细胞持续承受的代谢负担又会加重药物性肝损伤,形成代谢受损与毒性加剧的恶性循环。
团队还特意去找那些主要靶器官或肝脏之外的脱靶效应。一个典型例子是三氯生,一种外用的广谱抗菌剂。两项流行病学研究都把它和甲状腺功能异常联系了起来:一项发现暴露于三氯生会影响甲状腺自身免疫和稳态,另一项在出生队列中发现,母亲三氯生暴露与母体游离甲状腺素、新生儿三碘甲状腺原氨酸水平呈负相关。
而三氯生的作用靶点正是甲状腺过氧化物酶,本研究和既往草图都确认这个酶富集在甲状腺。它负责催化甲状腺激素合成,对甲状腺稳态至关重要。这个例子完美说明:把药物靶点的组织分布画清楚,能帮我们从分子层面理解脱靶副作用的来龙去脉。
借助同一平台、同一流程下的配对肿瘤与癌旁样本,团队构建了一张统一的泛癌蛋白质组图谱,最大限度减小了多批次效应,使跨癌种比较成为可能。
用线性混合模型比较配对肿瘤与癌旁,团队在25种肿瘤里共识别出8940个差异表达蛋白(DEP)。其中:
后者再次印证了前面提到的大脑稳定性:脑瘤和正常脑组织在蛋白质层面差异本就有限。

25种肿瘤中,配对肿瘤与癌旁之间显著上调(红)与下调(绿)蛋白的数目。可见胶质母细胞瘤上调蛋白极少而下调蛋白最多,其余癌种差异蛋白数目普遍可观。
大多数上调的差异蛋白是癌种特异的,或只在两种癌之间共享。但有33个差异蛋白在超过20种癌症里都上调,可以视作泛癌通用的肿瘤引擎。其中包括已知的促癌驱动因子,如MCM4和NUDT1(又名MTH1)。这说明存在一套保守的泛癌蛋白质组重塑机制,是多种肿瘤共同的底层逻辑。
另一方面,在所有差异蛋白中,有2878个是肿瘤特异的,也就是只在某一种癌里显著变化。
最有故事的是GIST(胃肠道间质瘤)。它特异上调的差异蛋白竟然富集在突触信号通路上。这绝非偶然:GIST起源于Cajal间质细胞,这是肠道里的起搏细胞,本身就具有神经元样特性。研究进一步发现,Cajal间质细胞的经典标志物KIT和ANO1都是GIST特异上调的差异蛋白,呼应了它特殊的细胞起源。团队还用更精准的靶向质谱(PRM)验证了CPT1C和FXYD6在GIST里特异上调,而这两个蛋白主要在神经元里表达,进一步坐实了GIST的神经元身份。
在肿瘤特异差异蛋白中,有131个本来就是对应正常组织的组织富集蛋白,团队称之为局部富集差异蛋白(LEDEP)。它们的变化方向很有讲究:

肿瘤特异性蛋白特征。a为各癌种中肿瘤特异性差异蛋白、局部富集差异蛋白(LEDEP)与肿瘤富集蛋白的数目。b、c为PAX5与CPT1C的PRM靶向验证。d、e为膜定位的肿瘤富集蛋白TYROBP与KIT的表达谱。f为PAX5在DIA与PRM两种方法中一致上调。g为多个器官中癌症特异LEDEP的系统视图(肝、肺、胃、小肠、肾、胰腺、睾丸、前列腺等)。
为了证明这些发现可靠,团队把差异蛋白与TCGA转录组和CPTAC蛋白质组数据做了交叉验证。尽管平台和队列都不同,仍有4263个上调、1716个下调的差异蛋白在三方数据中保持一致。进一步整合人类病理图谱的预后数据后,团队在16种癌症里找到7336个与临床结局相关的蛋白。其中PLOD2在25种肿瘤的13种里上调,此前已有泛癌研究将其与肾癌、肺腺癌、胰腺导管腺癌的不良预后挂钩,因此它被视为生物标志物开发和治疗靶点的高置信候选。

本研究、TCGA与CPTAC中失调蛋白的交叉验证(a、b),以及与HPA病理图谱预后数据的重叠(c,Sankey桑基图,展示各癌种上调/下调蛋白与有利/不利预后之间的对应关系)。
数据资源最终要落到应用。团队在药物靶点优先级排序上做了三层工作。
团队先看那些在多种肿瘤中共同上调、且已有药物的差异蛋白。结果发现一个临床痛点:相比乳腺癌,子宫内膜癌(ENCA)获批或在研的药物要少得多,存在明显的未满足治疗需求。
两个老药新用的例子很有说服力:

配对肿瘤与癌旁样本间失调蛋白的泛癌分析。a为所有癌种差异蛋白映射到药物靶点与临床试验的环形散点图。b、c分别展示戈沙妥珠单抗靶点(TROP2/TOP1)与奥拉帕利靶点(PARP1)的表达。d为受体酪氨酸激酶(RTK)家族在各癌种的失调热图。
第二层,团队把上调差异蛋白与ProCan-DepMapSanger数据集整合。这个数据集同时关联了蛋白丰度、药物敏感性(半数抑制浓度IC50)和CRISPR基因必需性。简单说,它能回答两个问题:某个蛋白表达高,是不是意味着对应的药更有效?某个蛋白是不是肿瘤细胞活下去离不开的?
团队聚焦在频繁失调的受体酪氨酸激酶(RTK)上,筛出既显著上调、又预示药物更有效的靶点。结果发现,在结直肠癌细胞系里,MET和BCL2L1高表达分别与MET抑制剂(savolitinib、tepotinib、merestinib)和BCL2家族抑制剂(navitoclax)的更高药效相关。在直肠癌里,MET蛋白水平还和CRISPR基因必需性正相关,也就是说MET表达越高、肿瘤越依赖它,进一步支持把MET作为治疗靶点。

潜在药物靶点与老药新用。a为各癌种在TCGA经典通路中失调蛋白的数目。b、c为可成药的癌症失调靶点映射到ProCan-DepMapSanger药物-蛋白(b)与CRISPR-蛋白(c)关联数据;底部分别放大展示BCL2L1与MET的药物-蛋白关联结果。
第三层,为了把副作用降到最低,团队专门挑选那些在肿瘤里、相对于配对癌旁和所有正常组织都显著上调的肿瘤富集蛋白,并锁定其中位于细胞膜上的(膜蛋白更容易被抗体类药物靶向)。最终得到41个独特的肿瘤富集膜蛋白。其中有些已经被临床获批的抗体偶联药物靶向,比如CD79B,这本身就验证了该策略的合理性。剩下的,尤其是那些尚未被研究的跨膜蛋白,代表了全新的治疗靶点:
对技术细节感兴趣的读者,可以记住几个关键词:样本以FFPE(甲醛固定石蜡包埋)为主,前处理用了高效的压力循环技术(PCT);质谱平台是timsTOF Pro的diaPASEF模式;谱库构建用FragPipe体系(MSFragger、Philosopher、EasyPQP),DIA定量用DIA-NN;统计上用线性混合模型并以Hedges'g衡量效应量、B-H法校正多重比较;并通过诱饵库策略严格控制假发现率。所有代码已在GitHub公开。https://github.com/guomics-lab/TPHP
一句话概括,它建立了一个解剖学分辨、横跨胎儿、健康成人、肿瘤和配对癌旁四种状态的人体蛋白质组图谱,提供了一个统一资源,既能刻画组织特异的蛋白分布,又能为治疗靶点排序。具体贡献包括:1717个组织富集蛋白(其中480个来自以往未充分刻画的组织)、对组织特异药物靶点空间分布的系统梳理(为解读器官特异毒性提供分子参照)、以及41个有望低脱靶毒性的肿瘤富集蛋白靶点。
研究团队也列出了几点不足:
不过,统一的平台和标准化流程保证了数据质量和可比性,这是它相对分散数据集最大的底气。
最实在的一点:这不只是一篇论文,更是一个开放资源。论文受CC BY 4.0开放获取许可,所有定性和定量数据均可公开获取。团队搭建了一个数据网站(db.prottalks.com),支持以蛋白为中心和以组织为中心两种查询,甚至可以在线对任意两种感兴趣的组织做差异表达分析、即时生成热图。原始数据则已存入ProteomeXchange等公共数据库。
如果把人类基因组计划比作绘制人体的设计图纸,把各类转录组图谱比作记录施工工单,那么这项工作就是第一次系统地把真正干活的工人,也就是蛋白质,在整个人体里的空间分布画了出来,而且同时覆盖了从胚胎到肿瘤的多种状态。
它让我们看到,发育和癌变是一对相向而行的镜像;它解释了为什么有的药伤肝、有的药伤甲状腺;它为子宫内膜癌等缺药的癌症指出了老药新用的方向;它还提名了一批值得深挖的新靶点。
正如作者所言,这是为人体打造数字导航器的关键一步。地图已经铺开,接下来要做的,是在这张图上找到通往疾病机理和新药的那条路。