
药物研发正在经历一次很深的范式调整。
过去几十年,临床前研究很大程度上依赖动物模型。动物实验为药物安全性和药效评价提供了重要基础,但它们始终只能近似人类生理、代谢和免疫反应,无法完全复制真实人体环境。
这也是药物研发长期面临的核心矛盾之一:很多候选药物在临床前研究中表现良好,却在进入人体试验后失败。文章开头提到,超过 90% 在临床前研究中看起来有前景的化合物,最终未能在人体试验中继续推进。
这个转化鸿沟在新型治疗模态兴起后变得更加突出。寡核苷酸药物、抗体偶联药物、靶向蛋白降解剂等新模态,常常作用于动物中并不存在或并不等价的分子靶点和通路。换句话说,传统动物模型并不总能回答今天药物研发真正关心的问题。
近日,Science 发表综述文章 Reimagining human-centric drug development with new approach methodologies。文章由 Stanford University School of Medicine、Stanford Cardiovascular Institute、Stanford Department of Biomedical Data Science、NIH 等机构研究者共同撰写,系统梳理了 new approach methodologies,简称 NAMs,如何推动药物研发从动物依赖型模式,逐步转向更加接近人类生物学的预测体系。

这篇综述的核心观点可以概括为一句话:
未来的临床前研究,不应只是在动物身上寻找人体反应的近似答案,而应尽可能直接围绕人类细胞、人类组织、人类数据和人类生理机制来构建证据链。
NAMs 通常被理解为一组能够补充或替代传统动物实验的新方法,包括人源细胞模型、类器官、器官芯片、微生理系统、计算模型、AI 模型和数字孪生等。
但这篇综述强调的并不是简单替代。
更准确地说,NAMs 代表了一种新的药物研发基础设施:它把人源实验系统和计算模型结合起来,试图生成更贴近人体的跨尺度证据,用于支持药物安全性、有效性、机制解释和临床转化判断。
文章将 NAMs 的体系分为几个关键层次:
人源细胞系统提供最基础的人类生物学材料;
类器官和器官芯片重建组织结构、微环境和动态生理过程;
AI 模型整合高维组学、影像、功能实验和临床数据;
lab-in-a-loop、clinical trial-in-a-dish 和 digital-experimental twins进一步把实验与计算连接成可迭代的闭环系统。
因此,NAMs 的真正意义不是减少一种实验,而是让药物研发的判断依据更接近人体本身。

human cellular systems、organoids、organs-on-chips 和 AI 如何共同构成面向 human-centric drug development 的 NAM 生态系统。
如果说过去 NAMs 更多是技术探索,那么现在它们已经开始进入监管语境。
文章梳理了多个关键节点。2022 年,美国通过 FDA Modernization Act 2.0,明确包括人源细胞实验、微生理系统和计算模型在内的新方法可以作为动物实验的替代方案之一。2025 年,英国发布 Replacing Animals in Science 战略,推动替代动物方法的发展、验证与监管采纳。文章还将 FDA Modernization Act 3.0 列为 2025 年的重要监管进展之一。
与此同时,具体技术也开始进入监管评价路径。例如,器官芯片技术和 AI/数字健康工具已经分别出现进入 FDA ISTAND 路径的案例。人源 iPSC 来源心肌细胞也已被纳入 Comprehensive In Vitro Proarrhythmia Assay,简称 CiPA,用于标准化心脏安全性评估。
这些变化说明,NAMs 并不是孤立的实验室技术潮流,而是正在被科学界、产业界和监管机构共同推动。
不过,监管采纳并不意味着技术已经完全成熟。文章反复强调,NAMs 要真正成为可依赖的药物研发工具,还需要严格验证、跨平台标准化、清晰的 context of use,以及可重复的数据和性能基准。
这也是理解 NAMs 时最重要的分寸感:它们代表方向,但不是捷径。

NAMs 的第一层基础是人源细胞系统,包括原代细胞、永生化细胞系、成人干细胞、胚胎干细胞和诱导多能干细胞,也就是 iPSC。
不同细胞来源各有优势,也各有局限。
原代人源细胞更接近成熟组织状态,能够保留谱系特异性的代谢程序、电生理特征和免疫反应。因此,原代肝细胞、心肌细胞、内皮细胞和免疫细胞常用于药物安全性、药效学和器官特异性毒性评价。
永生化细胞系的优势是可扩增、可重复、成本相对较低。HEK293、HepG2、HepaRG、A549 和 MCF-7 等细胞系长期用于受体信号、代谢毒性、细胞毒性和早期筛选。但它们也可能偏离原生组织结构和调控网络。
iPSC 则提供了另一种可能。由于 iPSC 可以保留供体的遗传背景,并分化为心肌细胞、肝细胞、神经元、胰岛细胞等多种谱系,它特别适合遗传驱动疾病的建模。文章提到,患者来源 iPSC 系统已用于 ALS、LMNA 相关血管病变、病毒易感性和纤维化等疾病相关研究,并支持药物发现或候选药物筛选。
但 iPSC 也不是完美模型。它常常存在发育不成熟问题,而且重编程过程会重置部分与年龄和长期环境暴露相关的表观遗传信息。因此,对于慢性、年龄相关或环境暴露驱动的疾病,成熟原代细胞有时可能更能保留疾病相关表型。
这部分讨论很有启发。文章并没有把某一种细胞系统推为唯一标准,而是强调要根据疾病机制和研发阶段选择合适模型。
遗传驱动疾病更适合患者特异性 iPSC 系统;环境暴露、慢性炎症或晚发性疾病,则可能更需要成熟原代细胞或保留组织背景的复杂模型。
如果说二维细胞培养提供了细胞层面的可控系统,那么类器官则进一步引入了三维结构和细胞间相互作用。
类器官是能够自组织形成的三维细胞系统,可以在一定程度上重现人类器官的结构和功能属性。文章中提到,类器官可以来源于成人干细胞、患者肿瘤样本,也可以通过 iPSC 定向分化获得。
成人干细胞来源类器官常用于胃肠道等具有活跃自我更新能力的组织。iPSC 来源类器官则可以扩展到脑、视网膜、心脏、肝脏等非增殖或难以直接获取的组织。患者来源肿瘤类器官,简称 PDTOs,则可以保留原始肿瘤的组织学结构、突变图谱和转录组程序,因此被广泛用于功能药物测试、肿瘤异质性分析和耐药机制研究。
文章列举了多个例子。
在炎症性肠病中,患者来源类器官能够保留疾病相关转录和表观遗传特征,用于分析细胞因子驱动的反应。在囊性纤维化中,气道类器官的 forskolin-induced swelling assay 能够预测患者对 CFTR 调节剂的响应。在肿瘤领域,患者来源肿瘤类器官已被用于药物敏感性测试,并在一定程度上与患者临床反应相一致。
类器官的价值在于,它们比二维细胞更接近组织层面的生物学。但类器官也存在扩散受限、缺氧核心、成熟度不足、缺乏血管化和免疫微环境等问题。
因此,文章接下来引出了另一个关键平台:器官芯片。
器官芯片,或者 organs-on-chips,是微流控工程与细胞生物学结合的产物。
与静态培养系统相比,器官芯片能够引入流体流动、剪切力、机械拉伸和分子梯度,从而模拟更接近体内的动态环境。连续灌流可以支持类似血管的物质运输、营养交换和生物力学刺激。
经典例子是 lung-on-a-chip。该系统将肺泡上皮细胞和内皮细胞培养在可拉伸多孔膜两侧,并施加周期性拉伸,用于模拟呼吸运动和气体交换。
文章还提到,器官芯片可以提高治疗响应建模的预测能力。例如,患者特异性食管腺癌芯片由治疗前肿瘤类器官和匹配成纤维细胞构建,灌流条件能够保留肿瘤-基质结构和遗传特征,并在约 12 天内预测新辅助化疗响应,准确性优于静态类器官培养。
器官芯片还可以引入免疫和微生物复杂性。肾类器官芯片可以用于区分 T 细胞双特异性抗体的抗原特异性毒性和非特异性 T 细胞激活;乳腺癌芯片可以支持免疫细胞迁移、肿瘤浸润和 CAR-T 疗效评估;阴道和宫颈芯片则可模拟宿主-微生物互作。
这些例子说明,器官芯片并不只是更高级的细胞培养皿。它真正的价值在于把动态流动、组织屏障、力学刺激、免疫反应和多器官互作引入体外系统。
类器官和器官芯片各有优势。
类器官更强调发育和组织自组织能力,器官芯片更强调微环境控制和动态灌流。将二者结合,就形成了 organoid-on-chip,也就是类器官芯片。
文章认为,这类混合系统可以同时利用类器官的发育保真度和微流控系统的环境控制能力。连续灌流和机械刺激可以缓解自由漂浮类器官常见的扩散限制和缺氧核心问题,并支持更长时间培养和实时监测。
例如,脑类器官芯片可以通过内皮化微通道改善氧合和神经成熟;肝芯片阵列可以对大量肝球状体进行连续灌流,用于长期代谢和毒性研究。
更进一步,多器官芯片可以用于系统性 PK 和器官间串扰研究。文章提到,一个 iPSC 来源多组织芯片连接心脏、肝脏、骨和皮肤类器官,在共享血管网络的同时保持各自微环境,并再现人类样 PK/PD 响应,用于揭示阿霉素心脏毒性的早期生物标志物。
这类系统试图回答传统单细胞或单器官模型难以回答的问题:药物进入人体后,不同器官如何共同决定吸收、分布、代谢、排泄和毒性?
也就是药物开发中最核心的 ADME/T 问题。
如果说人源细胞、类器官和器官芯片构成了 human-based development 的“硬件”,那么 AI 就是解释复杂数据、生成假设和驱动预测模拟的“软件”。
文章将 AI 在药物研发中的作用分为几个层次。
第一层是生成式分子设计。Transformer、图神经网络和其他深度学习架构能够从大量化合物中学习化学统计规律,并在蛋白口袋、疾病签名或动态构象等条件下生成候选分子。文章提到,一个由生成式 AI 发现的 TNIK inhibitor 用于特发性肺纤维化,从识别、优化到进入临床评估仅用了 18 个月,展示了算法设计加速早期发现的潜力。
第二层是主动学习和闭环实验。传统高通量筛选往往依赖静态数据和大规模实验,而主动学习会优先选择最能降低模型不确定性的化合物或条件,从而让每一轮实验都反过来更新模型。文章提到,Cellarity 开发的 DrugReflector 整合强化学习和超过 100 万个转录组扰动谱,用于优先选择能改变疾病相关表达签名的化合物,相比随机搜索可提高 hit rate。
第三层是多模态学习。BiomedCLIP、MedFound、TITAN 等模型将图像、文本、病理、电子健康记录和分子数据结合起来,用于诊断、预后和报告生成。它们的目标不只是识别模式,而是把分子网络变化与组织和疾病表型联系起来。
第四层是 agentic intelligence。文章提到,AlphaFold、ESM、scGPT、GenePT 和 DINO 等工具已经能够提供结构、分子和细胞状态的高分辨率表征。未来,这些模型可以被更高层次的 AI agent 调用,用于假设生成、实验设计和数据解释。The Virtual Lab 作为一个例子,使用 LLM 驱动的principal investigator和专门 AI agent,整合 ESM、AlphaFold-Multimer 和 Rosetta 设计 SARS-CoV-2 纳米抗体,并获得实验验证。
这部分对 AIDD 尤其重要。AI 不再只是一个分子生成器或性质预测器,而是逐渐进入模型—实验—反馈—再设计的闭环结构。
文章提出了一个面向 human-centric drug development 的四步路线图,值得重点关注。
Lab-in-a-loop 的核心是让高内涵实验输出持续更新预测模型,而模型生成的假设又反过来指导下一轮扰动、设计或实验条件。
这本质上是一个主动学习闭环。
文章举例,在抗体工程中,生成模型和主动学习算法被用于指导 1800 个变体的多轮设计与测试,最终实现最高 100 倍亲和力提升。LUMI-lab 则将 foundation model 与机器人合成结合,用于探索 mRNA 递送脂质结构;经过 10 轮迭代,系统自主识别出能够提升转染效力的溴化尾部结构。
如果这种闭环与人源类器官、iPSC 模型和 MPS 结合,早期发现就不再只是围绕化合物结构优化,而是可以围绕患者相关生物学进行连续学习。

patient-derived data、predictive model 和 human-relevant experimental systems 之间的闭环迭代关系。
当候选药物进入临床前评价阶段,器官芯片可以用于系统性 PK 和安全性评价。
文章指出,在动物模型缺乏转化相关性时,例如靶点不存在于动物或跨物种差异较大,器官芯片尤其有价值。通过重构生理流动、剪切力和器官区室体积,这些系统可以用于定量模拟吸收、代谢、分布和清除,同时监测疗效与脱靶损伤。
文章提到,肝-肾-肠多器官芯片结合生理药代模型,可以再现人体首过代谢和系统暴露。连接肝、心、肺、内皮、脑和睾丸等多种人源组织的多器官系统,也可用于评价器官间毒性、前药激活和代谢物再分布。
Clinical trial-in-a-dish 指的是利用人源细胞平台,在体外模拟不同遗传背景人群的治疗反应,从而在患者入组前预测个体差异。
这对精准医学非常重要。
文章提到,在肿瘤学中,结直肠癌、肝癌、肺癌和儿童肾癌等患者来源类器官库,能够保留组织病理结构和基因组多样性,并显示出与临床结局相关的体外药物敏感性模式。在安全性评价方面,多供体 iPSC 来源心肌细胞已用于心律失常风险评价,并在 CiPA 框架中支持 ICH E14/S7B 指南修订。
这一方向的意义在于,它把临床试验的一部分问题前移到了体外:不同患者为什么响应不同?谁更可能获益?谁更容易出现毒性?
数字孪生是实验 NAMs 与计算 NAMs 融合的代表。
文章将 digital twin 描述为一种患者特异性模拟系统,整合分子、生理和真实世界数据,用于预测治疗结果。当前多数数字孪生仍处于静态或部分纵向水平,机制深度有限。NAMs 的加入可以提供多尺度数据,使其向更动态、多器官和多尺度的方向发展。
这里的关键概念是 digital-experimental twin。
iPSC 平台可以提供患者特异性的基因型和细胞表型,MPS 可以提供代谢、清除和屏障功能等定量数据,真实世界数据则可以把这些体外和计算表征锚定到长期临床轨迹中。
换句话说,未来的数字孪生不只是电子病历上的模拟人,而可能是由患者细胞、器官芯片、AI 模型和临床数据共同构成的实验-计算复合系统。
文章最后强调,NAMs 近期最大的挑战未必是技术创新本身,而是制度准备。
首先是监管。
NAM 平台要进入药物研发决策,必须明确 context of use。也就是说,一个模型不是笼统地“有用”,而是在某一个具体场景下、以某一种性能标准、支持某一种监管或研发决策。人源 Liver-Chip 进入 FDA ISTAND,用于小分子药物诱导性肝损伤预测,是这一路径的代表案例。
其次是伦理。
NAMs 减少了对动物实验的依赖,也让研究更贴近患者个体,但它们也带来新的伦理问题。患者来源材料如何获得同意?复杂体外系统的道德边界如何界定?AI 工具如何影响实验和临床决策?这些问题无法在技术完成后再补课,而需要和技术发展同步讨论。
第三是教育。
NAMs 需要跨越细胞生物学、组织工程、微流控、AI、药理学、毒理学和监管科学。文章指出,现有训练体系仍在很大程度上根植于动物模型范式。未来的研究者、工程师和监管者,不仅要会使用 NAMs,还要理解它们的适用范围、局限性和证据整合方式。
这点非常现实。NAMs 要真正进入日常研发,不只是买设备、建模型、跑算法,更需要一代能够跨越实验、计算和监管语言的人。
这篇综述虽然不是一篇传统 AIDD 文章,但对 AI 药物设计有很强的启发。
过去 AIDD 很多工作集中在分子生成、靶点预测、性质预测、虚拟筛选和 docking 上。这些任务很重要,但如果没有人源实验系统的支撑,模型再强也可能停留在体外指标或计算 proxy 上。
NAMs 提醒我们,真正面向临床转化的 AI 药物设计,不能只问模型能否生成一个分子,而要问:
这个分子能否在人源疾病模型中改变相关表型?
这种改变是否可以在类器官或器官芯片中被验证?
模型预测的安全性和疗效是否能够被多供体、多组织、多模态数据支持?
实验反馈能否反过来更新模型,形成持续学习的闭环?
从 AIDD 视角看,这部分可以进一步延伸出一个重要判断:AIDD 的下一阶段可能不只是更大的分子模型,而是更完整的 experimental-computational loop。
生成模型负责提出候选,器官芯片和类器官负责提供人源验证,多模态 AI 负责整合机制和表型数据,主动学习负责决定下一轮实验,数字孪生负责连接个体化预测和临床场景。
如果说过去的 AIDD 更像是在计算空间里找分子,那么 NAMs 语境下的 AIDD 更像是在人源生物系统中迭代假设。
这也许是更接近药物研发真实问题的方向。
尽管文章对 NAMs 的未来持积极态度,但它并没有简单宣称动物实验马上会被完全替代。
文章在展望中给出了更稳健的判断:未来十年可能是一个过渡期。人源 NAMs 将在药物研发中扮演越来越重要的角色,而动物模型的作用可能逐渐从默认主要证据来源,转向校准、参考和解决残余不确定性的辅助证据流。
这种表述很关键。
NAMs 不是为了制造一个反动物实验的简单叙事,而是希望构建一个更预测、更透明、更贴近人类生物学的研发体系。动物模型是否使用、何时使用、如何使用,未来都应基于问题本身和证据质量,而不是历史惯性。
真正的目标不是替换某一个模型,而是让每一个研发决策都由更合适、更可靠的人类相关证据支持。
这篇 Science 综述提供了一幅很清晰的图景:药物研发正在从以动物模型为默认起点的临床前体系,逐步转向由人源细胞、类器官、器官芯片、AI 和数字孪生共同构成的人类中心体系。
这个转变不会一蹴而就。它需要标准化,需要验证,需要监管共识,也需要新的教育体系和伦理治理。
但方向已经越来越明确。
未来的药物研发,可能不再只是先在动物中寻找安全性和有效性的近似信号,再被动等待人体试验给出答案。更理想的路径是,在研发早期就通过人源模型和计算系统构建更接近真实人体的证据链,让候选药物在进入人体前,就已经经历过更严格、更相关、更机制化的筛选。
对 AIDD 研究者而言,这篇文章尤其值得关注。它提醒我们,AI 药物设计的终点不是生成更多分子,而是把模型预测与人源生物证据连接起来。
当 AI、类器官、器官芯片和数字孪生进入同一个闭环,药物研发的核心问题也会发生变化:
不是模型能不能生成候选,而是候选能不能在更接近真实人体的系统中被解释、被验证、被优化,并最终转化为患者获益。
Xuekun Wu et al., Reimagining human-centric drug development with new approach methodologies. Science 392, 371-378 (2026). DOI: 10.1126/science.aeb0045
论文链接:
https://doi.org/10.1126/science.aeb0045