首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nature | 西湖大学团队发布人体与癌症的蛋白质组高清地图

Nature | 西湖大学团队发布人体与癌症的蛋白质组高清地图

作者头像
MindDance
发布2026-06-24 15:10:59
发布2026-06-24 15:10:59
1170
举报

一篇论文,把整个人体从胚胎、健康成人到肿瘤的蛋白质分布,画成了一张可以查询的高清地图。

昨日(2026年6月17日),西湖大学郭天南团队联合多家机构在《Nature》发表重磅研究,用质谱技术系统刻画了人体的蛋白质组空间分布。这项工作横跨58种主要组织、251种精细组织亚型、25种常见癌症,外加22种胎儿组织,在2856份样本上定量了超过1.3万个蛋白。

如果说人类基因组计划绘制了人体的遗传蓝图,那么这项研究试图回答一个更贴近功能的问题:身体里成千上万种蛋白质,究竟分布在哪儿?它们在发育、健康、衰老和癌变中又是如何变化的?

下面我们用尽量通俗的方式,把这篇信息密度极高的论文拆开讲清楚。

人体蛋白质组草图总览。图中标注了本研究覆盖的全部样本类型,包括58种主要组织、各类体液、人体胚胎(外胚层、中胚层、内胚层)以及眼、耳、鼻、脑的精细取样部位,底部列出25种癌症类型。括号内数字代表各组织亚矩阵中、在超过一半样本里被定量到的蛋白数目。
人体蛋白质组草图总览。图中标注了本研究覆盖的全部样本类型,包括58种主要组织、各类体液、人体胚胎(外胚层、中胚层、内胚层)以及眼、耳、鼻、脑的精细取样部位,底部列出25种癌症类型。括号内数字代表各组织亚矩阵中、在超过一半样本里被定量到的蛋白数目。

人体蛋白质组草图总览。图中标注了本研究覆盖的全部样本类型,包括58种主要组织、各类体液、人体胚胎(外胚层、中胚层、内胚层)以及眼、耳、鼻、脑的精细取样部位,底部列出25种癌症类型。括号内数字代表各组织亚矩阵中、在超过一半样本里被定量到的蛋白数目。


一、背景:我们为什么需要一张蛋白质组的空间地图

这一部分稍微花点篇幅讲透,因为理解了背景,才会明白这项研究的分量。

1.1 从中心法则说起:基因是图纸,蛋白才是干活的人

生物学有一条最基础的规律,叫中心法则:遗传信息从DNA转录成RNA(信使分子),再翻译成蛋白质。可以打个比方:

  • DNA基因组,像一栋大楼的全套设计图纸,每个细胞里都一样;
  • 转录组(RNA),像某一天下发到工地的施工工单,决定哪些图纸现在要被执行;
  • 蛋白质组,才是真正盖楼、搬砖、装修的工人和最终的建筑成品。

人体里几乎所有的实际功能,从消化、呼吸、思考到免疫,都是由蛋白质完成的。更关键的是,目前绝大多数药物的作用对象,也就是药物靶点,本质上都是蛋白质。换句话说,要理解疾病、要开发药物,蛋白质才是离临床最近的那一层分子

1.2 一个长期被忽视的事实:RNA和蛋白经常对不上账

既然如此,为什么过去大量的研究都在测RNA(转录组),而不是直接测蛋白?

原因很现实:测RNA技术成熟、便宜、灵敏,可以很方便地一次测出成千上万个基因的表达量。所以早期建立的各种人体组织表达图谱,比如ArrayExpress、RNA-Seq Atlas、BioGPS门户,以及覆盖范围更大的GTEx项目,主要都是基于基因组和转录组数据。

但问题在于,论文中明确指出,RNA的丰度和蛋白的表达只是中等程度相关。也就是说,某个基因RNA很高,并不代表对应的蛋白就一定高。RNA量大但蛋白量小、RNA量小但蛋白量大的情况都普遍存在。这背后涉及翻译效率、蛋白降解速度、修饰加工等一系列调控。

这就带来一个尴尬的局面:我们手里那些精美的人体表达图谱,很多其实是RNA图谱,而不是真正的蛋白质图谱。可偏偏蛋白才是功能分子和药物靶点。这中间隔了一层,一直没有被很好地填上。

1.3 前人做了什么,又留下了什么缺口

要直接测蛋白,主要有两条路。

第一条是基于抗体的方法,代表作是大名鼎鼎的人类蛋白质图谱(Human Protein Atlas,简称HPA)。HPA从2005年起步,用免疫组化技术,借助两万多种抗体,覆盖了几十种健康和癌症组织。它最大的优势是能看到蛋白在组织里的精确定位,哪一类细胞表达、表达在细胞的什么位置都看得见。但抗体法有个硬伤:它本质上是半定量的,很难对成千上万个蛋白做可靠的精确定量,尤其是那些没有好抗体的蛋白,根本测不了。

第二条路就是本研究采用的质谱(Mass Spectrometry,MS)。质谱可以理解为一台超高精度的分子天平加身份识别仪:它把蛋白消化成更小的肽段,根据这些肽段的质量和碎裂模式,又精确又多通道地把样本里的蛋白一网打尽,并给出定量。它是无偏的、可多重检测的、定量的。

2014年,两项里程碑式工作分别发表了人类蛋白质组的草图,覆盖了约30种组织和细胞系,鉴定到约85%人类基因编码的蛋白。此后又有研究在29种组织里测到了一万五千多个蛋白群组,以及在32种组织里定量了约一万两千个蛋白。这些工作把人体组织蛋白质组学不断往前推。

但是,这些研究普遍存在两个共同的局限,也正是本研究瞄准的缺口:

  • 第一,它们大多只覆盖约30种主要组织,还有大量组织是空白的;
  • 第二,它们缺乏对健康组织与癌症组织系统、配对的比较。

另一方面,在肿瘤领域,癌症基因组图谱(TCGA)、国际癌症基因组联盟、临床蛋白质组肿瘤分析联盟(CPTAC)等大型计划,确实积累了海量的多组学数据。但它们各自针对特定肿瘤、用不同的平台和流程,导致跨癌种之间难以直接比较,限制了人们从中看清不同癌症之间到底有什么异同。

1.4 这项研究到底要解决什么

把上面的缺口归纳一下,本研究的核心目标其实很清晰:

用同一套技术平台、同一套标准化流程,把人体几乎所有的实体组织、体液、主要癌种,以及胚胎组织,全部测一遍蛋白质组,从而得到一张可以横向比较、空间分辨的人体蛋白质地图。

为什么强调同一套平台和流程?因为只有这样,不同组织、不同癌种之间的比较才是公平的,才能尽量排除批次效应等技术噪声。这正是过去那些分散数据集做不到的。论文用了一个很形象的说法来描述这项工作的最终愿景:为人体打造一个数字导航器


二、研究全景:一次史无前例的全身扫描

2.1 样本规模

研究一共收集了2856份样本,来源相当全面:

  • 9位捐献遗体的成人供者;
  • 8位健康参与者(主要提供唾液、尿液等体液);
  • 9位捐献遗体的胎儿供者;
  • 1015位癌症患者。

覆盖范围包括58种健康成人组织、来自25种癌症的配对肿瘤与癌旁样本、22种胎儿组织,几乎囊括了所有实体人体组织、体液和主要癌症类型。值得一提的是,本研究的泛癌队列里包含了两种连TCGA和CPTAC都没有覆盖的罕见恶性肿瘤:胃肠道间质瘤(GIST)和输卵管癌。

2.2 技术路线:为什么选择DIA质谱

这里需要解释一个关键的技术选择。质谱采集数据有两种主流模式:

  • 数据依赖采集(DDA):仪器实时挑选信号最强的肽段去打碎、鉴定。优点是谱图干净,缺点是每次挑的可能不一样,对低丰度蛋白容易漏、重复性差。
  • 数据非依赖采集(DIA):仪器不挑食,按固定窗口把一段范围内所有肽段全部打碎采集。优点是覆盖全、重复性好、定量稳,特别适合大规模、需要横向比较的项目。

本研究采用的正是DIA质谱(更准确说是timsTOF Pro仪器上的diaPASEF模式)。研究团队先用DDA构建了一个综合谱库,包含15332个蛋白群组,再用这个库去搜索DIA数据。最终在3005个质谱文件中定量到了13609个蛋白,蛋白水平的错误发现率(FDR)控制在0.1%。

为了保证如此大规模数据的可靠性,团队还用了一个叫诱饵库(entrapment)的严格策略,把人类谱图和非人类物种的谱图混在一起搜索,以此真实评估假阳性比例,确保结论站得住脚。

2.3 数据质量过硬

论文展示了多项质控结果:不同组织和样本类型之间的蛋白质组呈现出明显的异质性(也就是确实有区分度,不是糊成一团),重复样本之间高度一致,批次效应很小,整体数据质量很高。

分析流程与数据质量。a为DDA谱库构建流程,b为DIA定量分析流程,c为各样本鉴定到的蛋白与肽段数目(雷达-环形图),d、e为混合质控样本及重复样本的变异系数(CV)与皮尔逊相关性,f为方差分解(PVCA)结果,显示约66%的方差来自生物学效应、约4%来自技术与交互效应。
分析流程与数据质量。a为DDA谱库构建流程,b为DIA定量分析流程,c为各样本鉴定到的蛋白与肽段数目(雷达-环形图),d、e为混合质控样本及重复样本的变异系数(CV)与皮尔逊相关性,f为方差分解(PVCA)结果,显示约66%的方差来自生物学效应、约4%来自技术与交互效应。

分析流程与数据质量。a为DDA谱库构建流程,b为DIA定量分析流程,c为各样本鉴定到的蛋白与肽段数目(雷达-环形图),d、e为混合质控样本及重复样本的变异系数(CV)与皮尔逊相关性,f为方差分解(PVCA)结果,显示约66%的方差来自生物学效应、约4%来自技术与交互效应。


三、核心发现一:发育与癌变,是一对镜像过程

这是全文最具洞见的一个发现,也是最值得细品的部分。

3.1 一条隐藏的轴:F–T–NT–N

研究团队用t-SNE对所有样本做了降维分析。t-SNE可以通俗理解为:把每个样本上万维的蛋白表达数据,压缩成一张二维散点图,让相似的样本聚在一起、不同的样本拉开距离,方便肉眼观察整体格局。

结果出现了一个非常漂亮的规律:胎儿(F)、肿瘤(T)、配对癌旁(NT)、正常成人(N)这四类样本,沿着同一个方向有序排开,顺序是 F–T–NT–N。

这个顺序本身就是一个深刻的隐喻。它对应的是组织分化程度的高低:

  • 胎儿组织分化程度最低,处在最原始、最具可塑性的状态;
  • 正常成人组织分化程度最高,是成熟、各司其职的终态;
  • 而肿瘤组织恰好落在中间偏向胎儿的一端。

这呼应了一个经典认识:癌变在某种意义上是细胞向去分化、向胚胎样状态的回退。换句话说,肿瘤在蛋白质层面呈现出一种返祖倾向,发育和癌变像是沿着同一条轴线相向而行的镜像过程。

组织发育与癌变过程中的蛋白质组转变。a、b为肿瘤(T)、配对癌旁(NT)、正常成人(N)、胎儿(F)样本的t-SNE图,分别按样本类型(a)与组织类型(b)着色,可清晰看到F–T–NT–N沿坐标轴有序排列。c为轨迹相关蛋白热图,差异蛋白被聚类为M1至M8共八个共表达模块,右侧标注各模块前五位富集的GO生物学过程。
组织发育与癌变过程中的蛋白质组转变。a、b为肿瘤(T)、配对癌旁(NT)、正常成人(N)、胎儿(F)样本的t-SNE图,分别按样本类型(a)与组织类型(b)着色,可清晰看到F–T–NT–N沿坐标轴有序排列。c为轨迹相关蛋白热图,差异蛋白被聚类为M1至M8共八个共表达模块,右侧标注各模块前五位富集的GO生物学过程。

组织发育与癌变过程中的蛋白质组转变。a、b为肿瘤(T)、配对癌旁(NT)、正常成人(N)、胎儿(F)样本的t-SNE图,分别按样本类型(a)与组织类型(b)着色,可清晰看到F–T–NT–N沿坐标轴有序排列。c为轨迹相关蛋白热图,差异蛋白被聚类为M1至M8共八个共表达模块,右侧标注各模块前五位富集的GO生物学过程。

3.2 两个例外:大脑的稳重与肝脏的善变

凡是规律,往往最有意思的是例外。研究发现,大脑和肝脏的肿瘤及其癌旁组织,并不老老实实地按 F–T–NT–N 排列,而是各自抱团。

  • 大脑:表现出极强的蛋白质组稳定性。无论是发育还是恶性转化,大脑样本都聚集在很低的拟时序值上,四种状态之间的差异都很小。这和大脑发育过程中基因表达受到严格约束的特点高度一致。通俗说,大脑是个非常保守、不轻易改变自己分子身份的器官,哪怕得了肿瘤,它的蛋白质组也变化有限。这也解释了为什么后面会看到,胶质母细胞瘤(脑瘤)的差异蛋白数目在所有癌种里最少。
  • 肝脏:恰恰相反,表现出很强的适应性可塑性。肝脏的肿瘤和癌旁样本都落在很高的拟时序值上,离胎儿肝脏很远。这与肝脏需要不断应对各种外界环境因素(药物、毒素、代谢物)的功能特点相符。肝脏是个能屈能伸、随环境大幅调整自身状态的器官。

为了量化这些观察,团队还用拟时序(pseudotime)轨迹分析,给每个样本沿发育轨迹打了一个相对位置分值,从而精确刻画各类组织的状态转变特征。

3.3 八个蛋白模块讲述的故事

为了找出究竟是哪些蛋白和生物学过程在驱动这条轴,团队对所有样本做了无监督聚类,识别出八个表达模式各异的蛋白模块(M1到M8)。其中两个模块特别有代表性:

  • 模块3(M3):沿 F–T–NT–N 呈下降趋势,高度富集RNA剪接相关功能。RNA剪接在器官发育和肿瘤发生中都扮演关键角色,它在胎儿和肿瘤里更活跃,在成熟正常组织里相对收敛。
  • 模块8(M8):沿 F–T–NT–N 呈逐渐上升趋势,显著富集体液免疫应答。这可能反映了胎儿期和肿瘤里体液免疫被抑制或尚不完整的状态,到了正常成人组织才充分建立。

如果分别单独分析肝脏和大脑,除了同样能看到RNA剪接下降、免疫激活上升的总体趋势外,还会额外富集出组织特异的功能,比如大脑里的突触传递通路、肝脏里的代谢活动,进一步印证了器官各自的功能底色。


四、核心发现二:组织特异性蛋白,每个器官的身份标签

4.1 把组织分得更细:74种精细类型

人体组织内部并不均匀。有些组织(比如眼睛和软骨)内部差异很大,把它们当成一个整体会丢失信息。于是团队通过计算组织内、组织间的相似度,把高度异质的组织进一步拆分,最终得到74种精细组织类型。验证显示,所有精细类型在各自类别内部的距离更近、相关性更高,分类是合理的。

降维结果还显示出一些有趣的格局:体液、睾丸、耳蜗、半规管等特殊组织会形成各自独立的聚类;而生理上相关的组织,比如外周神经、大脑、脊髓会紧密聚在一起。这说明蛋白质组确实忠实地反映了组织的生理关系。

4.2 谁的身份最鲜明

团队按照HPA的标准,把蛋白分成六类:未检出、组织富集、组群富集、所有组织表达、组织增强、混合型。结果发现:

  • 大脑拥有最多的组织富集蛋白,是身份标签最丰富的器官;
  • 晶状体(眼睛里的透明结构)则拥有最高的组织富集蛋白丰度占比,也就是说它表达的蛋白高度集中在自己专属的那一小撮上。

层次聚类还把生理相关的组织正确地聚在一起,比如大脑和脊髓。也有一些耐人寻味的例外:乳腺竟然和骨、肌腱、软骨这些富含结缔组织的组织聚到了一起。论文给出的解释是,这可能与年龄相关的乳腺萎缩有关,本研究的供者偏年长,乳腺腺泡减少,H&E染色也证实了这一点。类似地,气管和唾液腺聚到一起,可能是因为取样区域含有较多腺上皮细胞。这些细节恰恰体现了蛋白质组数据的敏感性。

4.3 PANX3:一个被重新发现的蛋白

本研究一共鉴定出1717个组织富集蛋白。其中749个在既往蛋白质组或转录组数据中曾被报道,而有480个来自此前研究覆盖不足的24种组织,凸显了本研究在组织覆盖上的扩展价值。

最具代表性的例子是PANX3这个蛋白。它在HPA数据库里至今被标注为未检出,而本研究却发现它是耳蜗里表达最高的组织富集蛋白。为了确认这不是误判,团队专门合成了PANX3的特异性肽段,用质谱验证了它确实存在,且确实是耳蜗特异表达的。这是一个用更全面的技术,把过去测不到的蛋白重新点亮的典型案例。

功能分析也与组织的专长高度吻合:代谢相关蛋白富集在肝脏,突触功能在大脑,减数分裂细胞周期在睾丸,心腔形态发生在心脏,晶状体发育在晶状体;而激素代谢过程则共同富集在甲状腺、肾上腺等内分泌器官中。

蛋白与药物靶点的组织特异性。a为各组织中不同特异性类别蛋白的数目(上)与丰度占比(下)柱状图,下方树状图为基于组织富集蛋白中位丰度的层次聚类。b为组织特异性药物靶点热图,并与既往人类蛋白质组草图(Wang等、TSomics、HPA免疫组化与HPA RNA数据)做对比,右侧彩条显示对应的药物数目与药物作用类型。
蛋白与药物靶点的组织特异性。a为各组织中不同特异性类别蛋白的数目(上)与丰度占比(下)柱状图,下方树状图为基于组织富集蛋白中位丰度的层次聚类。b为组织特异性药物靶点热图,并与既往人类蛋白质组草图(Wang等、TSomics、HPA免疫组化与HPA RNA数据)做对比,右侧彩条显示对应的药物数目与药物作用类型。

蛋白与药物靶点的组织特异性。a为各组织中不同特异性类别蛋白的数目(上)与丰度占比(下)柱状图,下方树状图为基于组织富集蛋白中位丰度的层次聚类。b为组织特异性药物靶点热图,并与既往人类蛋白质组草图(Wang等、TSomics、HPA免疫组化与HPA RNA数据)做对比,右侧彩条显示对应的药物数目与药物作用类型。


五、核心发现三:药物靶点的组织分布,解释为什么有的药伤肝、有的药伤甲状腺

这一部分把基础研究和临床安全直接挂上了钩,非常实用。

5.1 一个朴素而重要的逻辑

药物靶点本质是蛋白。如果某个靶点蛋白在某个器官里特别富集,那么针对它的药物就更可能在那个器官产生副作用,也就是所谓的脱靶毒性。于是团队把组织富集蛋白映射到药物数据库DrugBank,找到了402个蛋白对应着2598种药物,分布在34种组织中。

5.2 肝脏:药物毒性的天然重灾区

分析发现,肝脏拥有最多的组织富集药物靶点。这从分子层面解释了为什么药物性肝损伤如此常见。更何况,肝脏还有一个独特的解剖学劣势:经门静脉循环,肠道吸收的药物会先直达肝脏,再进入全身循环,相当于肝脏总是最先、最高浓度地接触药物,因此格外容易受损。

一个具体例子是细胞色素P450 2C8(CYP2C8)。它在肝脏里高度富集(本研究和既往草图都证实了这一点),是多达302种药物的代谢靶点,涵盖抗病毒药、降糖药、抗癌药等。这些药多数作为它的抑制剂或底物,其中包括降脂药吉非罗齐,后者是CYP2C8的不可逆抑制剂。

后果就很严重了:如果把吉非罗齐和那些需要CYP2C8代谢的药物一起用,药物在血浆里的浓度可能升高八到十倍,引发严重毒性。临床上,它和他汀类合用会导致横纹肌溶解和急性肾损伤,和降糖药合用会导致严重低血糖。同时,肝细胞持续承受的代谢负担又会加重药物性肝损伤,形成代谢受损与毒性加剧的恶性循环。

5.3 三氯生与甲状腺:一个跨器官脱靶的案例

团队还特意去找那些主要靶器官或肝脏之外的脱靶效应。一个典型例子是三氯生,一种外用的广谱抗菌剂。两项流行病学研究都把它和甲状腺功能异常联系了起来:一项发现暴露于三氯生会影响甲状腺自身免疫和稳态,另一项在出生队列中发现,母亲三氯生暴露与母体游离甲状腺素、新生儿三碘甲状腺原氨酸水平呈负相关。

而三氯生的作用靶点正是甲状腺过氧化物酶,本研究和既往草图都确认这个酶富集在甲状腺。它负责催化甲状腺激素合成,对甲状腺稳态至关重要。这个例子完美说明:把药物靶点的组织分布画清楚,能帮我们从分子层面理解脱靶副作用的来龙去脉。


六、核心发现四:泛癌蛋白质组图谱,看清癌症的共性与个性

借助同一平台、同一流程下的配对肿瘤与癌旁样本,团队构建了一张统一的泛癌蛋白质组图谱,最大限度减小了多批次效应,使跨癌种比较成为可能。

6.1 8940个差异蛋白

用线性混合模型比较配对肿瘤与癌旁,团队在25种肿瘤里共识别出8940个差异表达蛋白(DEP)。其中:

  • 结肠癌、直肠癌、睾丸癌的差异蛋白最多;
  • 胶质母细胞瘤(脑瘤)最少。

后者再次印证了前面提到的大脑稳定性:脑瘤和正常脑组织在蛋白质层面差异本就有限。

25种肿瘤中,配对肿瘤与癌旁之间显著上调(红)与下调(绿)蛋白的数目。可见胶质母细胞瘤上调蛋白极少而下调蛋白最多,其余癌种差异蛋白数目普遍可观。
25种肿瘤中,配对肿瘤与癌旁之间显著上调(红)与下调(绿)蛋白的数目。可见胶质母细胞瘤上调蛋白极少而下调蛋白最多,其余癌种差异蛋白数目普遍可观。

25种肿瘤中,配对肿瘤与癌旁之间显著上调(红)与下调(绿)蛋白的数目。可见胶质母细胞瘤上调蛋白极少而下调蛋白最多,其余癌种差异蛋白数目普遍可观。

6.2 共性:跨癌种的通用引擎

大多数上调的差异蛋白是癌种特异的,或只在两种癌之间共享。但有33个差异蛋白在超过20种癌症里都上调,可以视作泛癌通用的肿瘤引擎。其中包括已知的促癌驱动因子,如MCM4和NUDT1(又名MTH1)。这说明存在一套保守的泛癌蛋白质组重塑机制,是多种肿瘤共同的底层逻辑。

6.3 个性:每种癌都有自己的脾气

另一方面,在所有差异蛋白中,有2878个是肿瘤特异的,也就是只在某一种癌里显著变化。

  • 肝癌(HCC)的肿瘤特异差异蛋白最多,其次是弥漫大B细胞淋巴瘤(DLBCL)和GIST,食管癌最少;
  • 肝癌特异的差异蛋白大多是下调的,且富集在代谢通路上,符合肝癌丢失正常肝代谢功能的特点。

最有故事的是GIST(胃肠道间质瘤)。它特异上调的差异蛋白竟然富集在突触信号通路上。这绝非偶然:GIST起源于Cajal间质细胞,这是肠道里的起搏细胞,本身就具有神经元样特性。研究进一步发现,Cajal间质细胞的经典标志物KIT和ANO1都是GIST特异上调的差异蛋白,呼应了它特殊的细胞起源。团队还用更精准的靶向质谱(PRM)验证了CPT1C和FXYD6在GIST里特异上调,而这两个蛋白主要在神经元里表达,进一步坐实了GIST的神经元身份。

6.4 局部富集差异蛋白:去分化的分子证据

在肿瘤特异差异蛋白中,有131个本来就是对应正常组织的组织富集蛋白,团队称之为局部富集差异蛋白(LEDEP)。它们的变化方向很有讲究:

  • 下调的LEDEP,反映的是肿瘤丢失了所在器官的特化功能,这正是前面 F–T–NT–N 轴里肿瘤去分化的分子体现。例如,RBP2和PLS1只在小肠肿瘤里被抑制;LIPF和GKN1只在胃癌里下降;而外分泌标志物如CELA2A、CPA1、PNLIP只在胰腺癌里被特异下调。
  • 上调的LEDEP则主要出现在睾丸癌里,比如TSPY2,提示肿瘤盗用了生殖细胞固有的增殖程序。
肿瘤特异性蛋白特征。a为各癌种中肿瘤特异性差异蛋白、局部富集差异蛋白(LEDEP)与肿瘤富集蛋白的数目。b、c为PAX5与CPT1C的PRM靶向验证。d、e为膜定位的肿瘤富集蛋白TYROBP与KIT的表达谱。f为PAX5在DIA与PRM两种方法中一致上调。g为多个器官中癌症特异LEDEP的系统视图(肝、肺、胃、小肠、肾、胰腺、睾丸、前列腺等)。
肿瘤特异性蛋白特征。a为各癌种中肿瘤特异性差异蛋白、局部富集差异蛋白(LEDEP)与肿瘤富集蛋白的数目。b、c为PAX5与CPT1C的PRM靶向验证。d、e为膜定位的肿瘤富集蛋白TYROBP与KIT的表达谱。f为PAX5在DIA与PRM两种方法中一致上调。g为多个器官中癌症特异LEDEP的系统视图(肝、肺、胃、小肠、肾、胰腺、睾丸、前列腺等)。

肿瘤特异性蛋白特征。a为各癌种中肿瘤特异性差异蛋白、局部富集差异蛋白(LEDEP)与肿瘤富集蛋白的数目。b、c为PAX5与CPT1C的PRM靶向验证。d、e为膜定位的肿瘤富集蛋白TYROBP与KIT的表达谱。f为PAX5在DIA与PRM两种方法中一致上调。g为多个器官中癌症特异LEDEP的系统视图(肝、肺、胃、小肠、肾、胰腺、睾丸、前列腺等)。

6.5 经得起交叉验证

为了证明这些发现可靠,团队把差异蛋白与TCGA转录组和CPTAC蛋白质组数据做了交叉验证。尽管平台和队列都不同,仍有4263个上调、1716个下调的差异蛋白在三方数据中保持一致。进一步整合人类病理图谱的预后数据后,团队在16种癌症里找到7336个与临床结局相关的蛋白。其中PLOD2在25种肿瘤的13种里上调,此前已有泛癌研究将其与肾癌、肺腺癌、胰腺导管腺癌的不良预后挂钩,因此它被视为生物标志物开发和治疗靶点的高置信候选。

本研究、TCGA与CPTAC中失调蛋白的交叉验证(a、b),以及与HPA病理图谱预后数据的重叠(c,Sankey桑基图,展示各癌种上调/下调蛋白与有利/不利预后之间的对应关系)。
本研究、TCGA与CPTAC中失调蛋白的交叉验证(a、b),以及与HPA病理图谱预后数据的重叠(c,Sankey桑基图,展示各癌种上调/下调蛋白与有利/不利预后之间的对应关系)。

本研究、TCGA与CPTAC中失调蛋白的交叉验证(a、b),以及与HPA病理图谱预后数据的重叠(c,Sankey桑基图,展示各癌种上调/下调蛋白与有利/不利预后之间的对应关系)。


七、核心发现五:从图谱到药物,靶点发现与老药新用

数据资源最终要落到应用。团队在药物靶点优先级排序上做了三层工作。

7.1 老药新用:为子宫内膜癌寻找出路

团队先看那些在多种肿瘤中共同上调、且已有药物的差异蛋白。结果发现一个临床痛点:相比乳腺癌,子宫内膜癌(ENCA)获批或在研的药物要少得多,存在明显的未满足治疗需求。

两个老药新用的例子很有说服力:

  • Trodelvy(戈沙妥珠单抗):这是一种抗体偶联药物,把抗TROP2抗体和拓扑异构酶1抑制剂SN-38连在一起,已获美国FDA批准用于三阴性乳腺癌。本研究发现,TROP2和TOP1在子宫内膜癌和乳腺癌里都共同上调,提示Trodelvy可能对子宫内膜癌也有效。这一推测已得到一项II期临床试验的支持,并正在III期临床中进一步评估。
  • 奥拉帕利:这是一种PARP1和PARP2抑制剂,已获批用于卵巢癌和乳腺癌。本研究发现PARP1在乳腺癌、卵巢癌、子宫内膜癌、宫颈癌等多种妇科肿瘤里都上调,提示它在子宫内膜癌里也可能有治疗潜力。I期和II期临床试验中观察到的积极反应进一步支持了这一点。
配对肿瘤与癌旁样本间失调蛋白的泛癌分析。a为所有癌种差异蛋白映射到药物靶点与临床试验的环形散点图。b、c分别展示戈沙妥珠单抗靶点(TROP2/TOP1)与奥拉帕利靶点(PARP1)的表达。d为受体酪氨酸激酶(RTK)家族在各癌种的失调热图。
配对肿瘤与癌旁样本间失调蛋白的泛癌分析。a为所有癌种差异蛋白映射到药物靶点与临床试验的环形散点图。b、c分别展示戈沙妥珠单抗靶点(TROP2/TOP1)与奥拉帕利靶点(PARP1)的表达。d为受体酪氨酸激酶(RTK)家族在各癌种的失调热图。

配对肿瘤与癌旁样本间失调蛋白的泛癌分析。a为所有癌种差异蛋白映射到药物靶点与临床试验的环形散点图。b、c分别展示戈沙妥珠单抗靶点(TROP2/TOP1)与奥拉帕利靶点(PARP1)的表达。d为受体酪氨酸激酶(RTK)家族在各癌种的失调热图。

7.2 用药敏和CRISPR数据双重把关

第二层,团队把上调差异蛋白与ProCan-DepMapSanger数据集整合。这个数据集同时关联了蛋白丰度、药物敏感性(半数抑制浓度IC50)和CRISPR基因必需性。简单说,它能回答两个问题:某个蛋白表达高,是不是意味着对应的药更有效?某个蛋白是不是肿瘤细胞活下去离不开的?

团队聚焦在频繁失调的受体酪氨酸激酶(RTK)上,筛出既显著上调、又预示药物更有效的靶点。结果发现,在结直肠癌细胞系里,MET和BCL2L1高表达分别与MET抑制剂(savolitinib、tepotinib、merestinib)和BCL2家族抑制剂(navitoclax)的更高药效相关。在直肠癌里,MET蛋白水平还和CRISPR基因必需性正相关,也就是说MET表达越高、肿瘤越依赖它,进一步支持把MET作为治疗靶点。

潜在药物靶点与老药新用。a为各癌种在TCGA经典通路中失调蛋白的数目。b、c为可成药的癌症失调靶点映射到ProCan-DepMapSanger药物-蛋白(b)与CRISPR-蛋白(c)关联数据;底部分别放大展示BCL2L1与MET的药物-蛋白关联结果。
潜在药物靶点与老药新用。a为各癌种在TCGA经典通路中失调蛋白的数目。b、c为可成药的癌症失调靶点映射到ProCan-DepMapSanger药物-蛋白(b)与CRISPR-蛋白(c)关联数据;底部分别放大展示BCL2L1与MET的药物-蛋白关联结果。

潜在药物靶点与老药新用。a为各癌种在TCGA经典通路中失调蛋白的数目。b、c为可成药的癌症失调靶点映射到ProCan-DepMapSanger药物-蛋白(b)与CRISPR-蛋白(c)关联数据;底部分别放大展示BCL2L1与MET的药物-蛋白关联结果。

7.3 新靶点:尽量小副作用地下手

第三层,为了把副作用降到最低,团队专门挑选那些在肿瘤里、相对于配对癌旁和所有正常组织都显著上调的肿瘤富集蛋白,并锁定其中位于细胞膜上的(膜蛋白更容易被抗体类药物靶向)。最终得到41个独特的肿瘤富集膜蛋白。其中有些已经被临床获批的抗体偶联药物靶向,比如CD79B,这本身就验证了该策略的合理性。剩下的,尤其是那些尚未被研究的跨膜蛋白,代表了全新的治疗靶点:

  • TYROBP:一种跨膜信号接头蛋白,在十种肿瘤里(如结直肠癌、胃癌、肾癌、胰腺癌)都是肿瘤富集的,是潜在的共享抗体偶联药物靶点;不过它也在髓系细胞表达,需要先评估毒性。
  • KIT:Cajal间质细胞的经典起搏分子,在GIST里既是肿瘤特异、又是肿瘤富集,提示针对GIST异常起搏信号下手具有治疗潜力。
  • PAX5:靶向质谱确认它在DLBCL里既肿瘤特异、又肿瘤富集。PAX5维持B细胞身份、阻止终末分化,并通过持续的转录激活推动淋巴瘤发生。已有证据表明,抑制PAX5能增强BTK阻断在DLBCL临床前模型中的疗效,凸显了它作为治疗靶点的价值。

八、方法学亮点

对技术细节感兴趣的读者,可以记住几个关键词:样本以FFPE(甲醛固定石蜡包埋)为主,前处理用了高效的压力循环技术(PCT);质谱平台是timsTOF Pro的diaPASEF模式;谱库构建用FragPipe体系(MSFragger、Philosopher、EasyPQP),DIA定量用DIA-NN;统计上用线性混合模型并以Hedges'g衡量效应量、B-H法校正多重比较;并通过诱饵库策略严格控制假发现率。所有代码已在GitHub公开。https://github.com/guomics-lab/TPHP


九、意义、局限与展望

这项研究的价值

一句话概括,它建立了一个解剖学分辨、横跨胎儿、健康成人、肿瘤和配对癌旁四种状态的人体蛋白质组图谱,提供了一个统一资源,既能刻画组织特异的蛋白分布,又能为治疗靶点排序。具体贡献包括:1717个组织富集蛋白(其中480个来自以往未充分刻画的组织)、对组织特异药物靶点空间分布的系统梳理(为解读器官特异毒性提供分子参照)、以及41个有望低脱靶毒性的肿瘤富集蛋白靶点。

作者坦承的局限

研究团队也列出了几点不足:

  • 正常样本主要来自年长供者,可能影响某些组织(如发生萎缩的乳腺)的呈现;
  • 头发、体液等特殊组织用了特殊处理流程,可能在跨组织比较中引入伪差,因此团队在排序组织富集蛋白时已主动回避了这些组织;
  • 为了追求组织覆盖的全面性,每种肿瘤的患者数受到限制(约40例,少于TCGA的约200例和CPTAC的约160例),约束了对患者间异质性的刻画。

不过,统一的平台和标准化流程保证了数据质量和可比性,这是它相对分散数据集最大的底气。

怎么用起来

最实在的一点:这不只是一篇论文,更是一个开放资源。论文受CC BY 4.0开放获取许可,所有定性和定量数据均可公开获取。团队搭建了一个数据网站(db.prottalks.com),支持以蛋白为中心和以组织为中心两种查询,甚至可以在线对任意两种感兴趣的组织做差异表达分析、即时生成热图。原始数据则已存入ProteomeXchange等公共数据库。


END

如果把人类基因组计划比作绘制人体的设计图纸,把各类转录组图谱比作记录施工工单,那么这项工作就是第一次系统地把真正干活的工人,也就是蛋白质,在整个人体里的空间分布画了出来,而且同时覆盖了从胚胎到肿瘤的多种状态。

它让我们看到,发育和癌变是一对相向而行的镜像;它解释了为什么有的药伤肝、有的药伤甲状腺;它为子宫内膜癌等缺药的癌症指出了老药新用的方向;它还提名了一批值得深挖的新靶点。

正如作者所言,这是为人体打造数字导航器的关键一步。地图已经铺开,接下来要做的,是在这张图上找到通往疾病机理和新药的那条路。


数据与资源

  • 论文DOI:https://doi.org/10.1038/s41586-026-10660-y
  • 数据查询网站:db.prottalks.com(支持蛋白与组织双向查询、在线差异分析)
  • 代码:https://github.com/guomics-lab/TPHP
  • 原始数据:已存入ProteomeXchange(iProX与PRIDE资源)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景:我们为什么需要一张蛋白质组的空间地图
    • 1.1 从中心法则说起:基因是图纸,蛋白才是干活的人
    • 1.2 一个长期被忽视的事实:RNA和蛋白经常对不上账
    • 1.3 前人做了什么,又留下了什么缺口
    • 1.4 这项研究到底要解决什么
  • 二、研究全景:一次史无前例的全身扫描
    • 2.1 样本规模
    • 2.2 技术路线:为什么选择DIA质谱
    • 2.3 数据质量过硬
  • 三、核心发现一:发育与癌变,是一对镜像过程
    • 3.1 一条隐藏的轴:F–T–NT–N
    • 3.2 两个例外:大脑的稳重与肝脏的善变
    • 3.3 八个蛋白模块讲述的故事
  • 四、核心发现二:组织特异性蛋白,每个器官的身份标签
    • 4.1 把组织分得更细:74种精细类型
    • 4.2 谁的身份最鲜明
    • 4.3 PANX3:一个被重新发现的蛋白
  • 五、核心发现三:药物靶点的组织分布,解释为什么有的药伤肝、有的药伤甲状腺
    • 5.1 一个朴素而重要的逻辑
    • 5.2 肝脏:药物毒性的天然重灾区
    • 5.3 三氯生与甲状腺:一个跨器官脱靶的案例
  • 六、核心发现四:泛癌蛋白质组图谱,看清癌症的共性与个性
    • 6.1 8940个差异蛋白
    • 6.2 共性:跨癌种的通用引擎
    • 6.3 个性:每种癌都有自己的脾气
    • 6.4 局部富集差异蛋白:去分化的分子证据
    • 6.5 经得起交叉验证
  • 七、核心发现五:从图谱到药物,靶点发现与老药新用
    • 7.1 老药新用:为子宫内膜癌寻找出路
    • 7.2 用药敏和CRISPR数据双重把关
    • 7.3 新靶点:尽量小副作用地下手
  • 八、方法学亮点
  • 九、意义、局限与展望
    • 这项研究的价值
    • 作者坦承的局限
    • 怎么用起来
  • END
  • 数据与资源
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档