编·译作者 | 王建民
今天给大家介绍一篇由ZhaoyiChen, JiangBian等人2020年12月24日发表在Drug Discovery Today上的一篇综述文章” Applications of artificial intelligence in drug development using real-world data”。FDA一直在积极推动真实世界数据(RWD, real-world data )在药物开发中的应用。RWD可以产生重要的真实世界证据,反映治疗方法使用的真实世界临床环境。同时,人工智能(AI),特别是机器和深度学习(ML/DL)方法,已经越来越多地被用于药物开发过程的许多阶段。AI的进步也为分析大型、多维的RWD提供了新的策略。
介绍
药物开发是将一个新的药物分子投入临床实践的过程;从最广泛的定义来看,它包括从寻找合适的分子靶标的基础研究到支持药物商业化上市的大规模三期临床研究,再到上市后的药物监测和药物再利用研究等所有阶段。药物开发过程中,要确定有可能成为治疗药物的化学实体,并对其进行全面测试,整个过程耗时长、成本高。因此,能够促进和加速药物开发过程的战略备受关注。
最近,FDA一直在积极推动RWD在药物开发中的应用。术语 "RWD "是指从常规研究环境以外的来源收集的数据,包括电子健康记录(EHR)、行政索赔和账单数据等。这些RWD通常包含详细的患者信息,如疾病状态、治疗、治疗依从性和结果、合并症以及纵向跟踪的并发治疗。RWD产生的信息可以提供重要的真实世界证据,为治疗开发、结果研究、患者护理、安全监测和比较有效性研究提供信息。更重要的是,RWD的使用可以使临床研究人员和监管机构更有效地回答问题,节省时间和金钱,同时得到可推广到更广泛人群的答案。过去的十年里,美国EHR系统的使用率越来越高。美国的这些技术进步和政策变化创造了一片沃土,利用RWD促进药物开发的机会越来越多。因此,FDA提供了关于在临床研究中使用电子健康记录数据的指导,以及关于将RWD纳入提交给FDA的监管文件的指导。
相比之下,由于计算能力的指数级增长和人工智能方法的进步,包括ML/DL在内的人工智能领域已经从很大程度上的理论研究走向了真实世界的应用。AI已经被广泛应用于药物开发过程的许多阶段,用于识别新的靶标,增加对疾病机制的理解,开发新的生物标志物等。许多制药公司已经开始在资源、技术和服务方面进行投资,特别是在生成和组装数据集以支持AI和ML/DL的研究方面,这些数据集中有许多来自RWD来源。新兴的需求是对当前药物开发研究中AI和RWD之间的交叉点进行概述,以描述当前的趋势,确定现有的研究差距,并为潜在的未来方向提供见解。
文献研究
药物开发、AI和RWD的定义
根据FDA的定义,药物开发过程有四个阶段。(一)药物发现:通过了解疾病机制和分子化合物的特性,发现新的治疗药物;(二)临床前研究:进行实验室和动物试验,以回答新药靶点的安全性问题;(三)临床研究:进行不同阶段的临床试验,在人体上测试新药,以评估其安全性和有效性;(四)上市后研究:进行药物监测和比较有效性研究。
计算机科学和信息学文献中,对人工智能方法的定义不太明确,而且各不相同。本文,研究人员选择了 "使用复杂的算法和软件来模拟人类的认知,分析复杂的医学数据,分析预防或治疗技术与患者结果之间的关系 "这一定义。更具体地说,研究人员考虑的人工智能相关的具体方法包括ML(机器学习)和DL(深度学习),这些方法被不同的研究界普遍接受为人工智能任务。
FDA将RWD定义为 "与患者健康状况和/或提供医疗服务有关的数据,这些数据常规地从各种来源收集",其中包括患者的EHR和索赔数据,以及其他患者产生的健康数据,如家庭使用的护理环境中产生的数据和来自移动设备的数据,这些数据可以告知健康状况。由于我们的目的是了解可用于支持药物开发的RWD,因此我们关注提供未在干预性、对照性、实验性临床研究环境中收集的临床数据的RWD来源,这些RWD不仅包括从提供常规护理中产生的数据,还包括可产生RWD的研究设计。
合格标准
研究人员审查的纳入标准是:(i)使用RWD作为数据来源的研究;(ii)使用人工智能方法进行统计分析或数据挖掘的研究;(iii)关注药物开发的研究。
搜索策略和研究选择
研究人员通过PubMed进行文献检索,以确定2020年7月1日之前发表的相关综述文章。研究人员的搜索策略中,考虑了由RWD、AI和选择关注的药物开发的定义所决定的不同搜索关键词组合。研究人员的搜索查询包括三组不同的关键词,分别为RWD、AI和药物开发过程的不同阶段。为了完整,研究人员在AI关键词中加入了 "自然语言处理(NLP) "等关键词,因为这些NLP任务的最先进模型通常是ML/DL方法。
按照快速审查的最佳实践,研究人员首先限制搜索,以确定现有的综述文章以便纳入。然后,手动识别了这些综述中描述的特定AI和RWD应用。接下来,基于已确定的应用,研究人员进行第二轮文献检索,寻找它们的详细方法,包括数据来源、数据类型和使用的分析方法。图1总结了整个搜索和筛选过程。
图1. 整体搜索和筛选过程
目前的文献进展
第一轮文献检索中,共确定了23篇综述文章;其中有16篇符合研究人员的纳入标准。根据这些综述文章,研究人员首先强调药物开发过程中的关键步骤,然后总结每个步骤中确定的研究课题。然后,总结了使用RWD和AI+RWD来解决这些研究问题的应用。
图2
药品研发过程及真实世界数据的应用
药物开发过程的第一步是发现潜在的治疗药物,研究人员研究不同分子、基因和蛋白质之间的相互作用,然后确定哪些分子具有很高的潜力,目标是找到新的靶点、生物标志物和化合物。其中一些目标可以通过RWD应用来实现。
下一步是临床前试验,包括体外试验和体内试验。这一阶段,药物分子的安全性要在试管、活细胞培养和动物模型中进行测试。这是至关重要的一步,因为只有在临床前研究中获得大量的安全性数据,药物研发才能进入人体试验。研究人员收录的综述论文中,没有发现这一阶段的研究。
临床前测试之后,一旦研究性新药(IND)申请获得批准,药物开发就会进入临床研究阶段。药物提交上市审批之前,有三个阶段的临床研究。这一步需要解决的关键问题是评估新药在目标人群中的安全性和有效性。RCTs仍然是产生临床证据的金标准;然而,RWD已经成为RCTs了解所开发的治疗方法在真实世界中的应用情况的重要数据来源。
药品上市后,药品研发人员需要定期提交报告,详细说明与该药品相关的不良事件(Aes)。除AE报告外,还利用RWD进行观察性研究和实用性临床试验,以评价药物在真实环境中的安全性。对于药物监测,RWD近年来得到了极大的关注。例如,2012年,Warrer等人对在叙述性文件上使用文本挖掘技术调查AEs的研究进行了回顾,其中只发现了7项研究。在2017年Luo等人对同一主题进行的最新综述中,发现了48项研究。这些研究表明,鉴于AEs在EHR叙事中的记录更为广泛,文本挖掘技术,从简单的自由文本搜索到更先进的基于ML/DL的自然语言处理(NLP)方法,可以在AE检测中发挥强大的作用。
利用RWD的AI方法在药物研发过程中的应用
不同的药物开发阶段,很少有研究在RWD上使用AI,大部分研究都出现在临床或上市后阶段。在RWD上使用AI的研究主要有三类:试验招募优化、AE检测和药物再利用。因此,研究人员进行了第二次文献检索,重点关注这三种主要应用的个别研究。与第一次文献检索类似,研究人员使用与AI和RWD相关的关键词筛选了所有关于这三个主题的研究。经过标题/摘要和全文筛选,共收录了65项研究。在表1中,研究人员将这些研究归纳为子类,并举例说明。图3中,研究人员显示了过去15年在药物开发过程中使用人工智能方法与RWD的研究的增长趋势。总的来说,研究人员观察到研究总数在稳步增加。特别是,专注于AE检测的研究数量呈爆炸式增长,许多研究专注于使用NLP方法从自由文本叙述中提取AE,这可能是因为基于DL的NLP方法取得了进展,达到了最先进的性能。尽管如此,研究人员也观察到更多的研究试图利用RWD上的AI方法来优化临床试验招募。此外,临床药物再利用已经成为药物开发过程中一个新的应用领域。
图3
图4总结了65项研究中使用的不同数据源、数据类型和AI方法的数量和百分比。鉴于绝大多数研究使用了AI驱动的NLP方法,研究人员将NLP研究与其他ML/DL研究分开。最先进的NLP方法经常利用ML和DL方法,如BERT。总的来说,EHR数据是最受欢迎的数据源,尤其是非结构化的临床笔记。因此,大量的研究都集中在开发或使用NLP方法上。
当前人工智能方法在药物开发研究中的RWD趋势
研究人员发现了过去20年发表的16篇与人工智能方法在RWD上的应用相关的综述文章,以及越来越多的原创性研究,主要涉及三个应用领域。AE检测、招募优化和药物再利用。
在RWD上使用AI最常见的应用领域是用于AE检测,主要集中在将NLP用于EHR的非结构化临床记录上。之所以如此受欢迎,有两方面的原因。(i)RWD,尤其是EHR中文本信息的丰富性;(ii)NLP方法的快速发展,尤其是那些基于DL的新模型,具有最先进的性能。事实上,EHR中>80%的临床信息是以自由文本的形式记录的,这使得文本挖掘成为一个理想的工具。EHRs对于研究AEs和其他治疗效果特别有用,因为其临床相关结果和药物暴露的连续和纵向性。
研究人员还发现了几项专注于招募优化和药物再利用的研究。这些任务适合使用AI和RWD,因为 (i)RWD的广泛收集提供了足够的样本量,以确定符合招募标准的个体;(ii)这些RWD来源中捕获的患者的纵向详细病史使研究人员有可能确定可能对主要用途以外的适应症有效的药物。(iii) AI和数据驱动方法有可能将选择偏差降到最低,因为它们不依赖于研究人员的预设假设,因此能够确定以前未知的新关联;(iv)现代AI方法能够处理RWD的高维度和复杂性,以及RWD变量的复杂组合和相互作用。
挑战和未来方向
药物开发研究中使用AI和RWD的挑战
首先,一个主要挑战是许多RWD来源的数据质量。例如,据报告电子健康记录仪中的信息具有异质性,因为临床医生并不总是以同样的方式记录护理情况。这种差异使得难以一致地提取相同的信息。其他数据不一致性问题,如缺失数据和选择偏差,也给研究者带来了巨大的挑战,因为真实世界环境中的数据收集通常是异质的和非标准化的。其次,研究人员发现的大多数研究都集中在预测或分类任务上,而且往往过分强调模型的性能,而不是学习偶然效应。此外,这些现有的研究大多没有整合先验的因果知识来指导学习过程,因此,无法估计因果关系。第三,这些研究的可迁移性和可解释性也需要进一步评估。建议使用独立来源的外部验证,以确保研究结果具有代表性和可推广性,但由于多种原因,这种验证研究往往难以执行。
尽管如此,在应对这些挑战方面也取得了重大进展。首先,人工智能方法的进步,特别是在DL方面的进步,促使了在一个连贯模型中考虑异质数据源和类型的研究。DL的其他发展包括不仅能够处理临床事件的时间顺序,而且能够处理事件之间的长期依赖关系以及协变量的时变效应。NLP方面,已经开发出了一些新的方法,可以将现有本体/知识库中的事实医学知识纳入其中,进一步提高NLP任务的性能,如用于临床概念提取。
其次,在AI中使用因果建模工具,如因果图,可以为使用RWD实现因果推理提供重要补充。药物开发研究中,因果建模也可以使AI模型的可解释性和适应性得到改善。此外,新出现的可解释人工智能(xAI)可以帮助解释和理解人工智能决策。xAI模型在ML/DL模型的基础上使用不同的机制来产生可解释的输出,如变量排序,最终帮助研究人员理解AI系统为什么会做出某种决策。xAI模型对于药物再利用等任务特别有用,因为这些任务是在生成假设,而对于这些假设来说,合理的解释是至关重要的。
最后,大型研究网络的建立,如国家以病人为中心的临床研究网络(PCORnet)、观察性健康数据科学和信息学(OHDSI)联盟以及临床和转化服务应计到临床跟踪(CTSA ACT)网络,促进了RWD的共享。这些大型网络中的每一个都由美国和国际上的多个站点组成,每个网络都在使用相同的数据基础设施。来自这些网络的RWD代表了不同的患者和机构,并提供了进行大规模人口研究的机会,以了解在异质和真实世界环境中导致健康和疾病的因素。此外,去身份识别策略,如对海量临床记录进行自动去身份识别的策略,已被广泛应用于促进不同机构之间的数据共享。此外,保护隐私的记录连接工具在连接和重复复制病人记录方面表现出很高的精确度,而不会共享受保护的可识别信息。虽然这些去身份识别策略不一定适用于每一种数据类型,但它们提供了促进跨站点数据共享和整合不同数据源的能力。
未来的应用
药物开发过程中,RWD和AI方法可能会在其他几个场景中发挥作用。例如,传统上,临床试验模拟(CTS)研究在投入资源进行实际的临床试验之前,使用计算机模拟方法对虚拟人群进行测试不同的试验设计。融合了RWD的CTS可以更真实地模拟其虚拟人群。此外,"目标试验 "框架的最新发展,模拟RWD的假设试验,使研究人员能够识别无偏的暴露起始,并达到无偏的偶然关系估计。结合现代试验仿真的概念和传统的CTS方法,一个带有RWD的试验仿真框架能够系统地测试临床试验的不同假设,为未来的试验设计提供参考,并通过RWD得出因果关系的结果,将引起人们的高度关注。
为了促进新药靶点的发现,另一个新兴趋势是将EHR与其他数据源联系起来,研究药物-表型和药物-基因的相互作用。最后,研究人员强调临床和转化科学生命周期在药物开发过程中的重要性。例如,从基于人群的研究中发现的药物再利用信号,需要循环到临床前和临床研究阶段进行进一步验证和评估。
结论性意见
AI和RWD的使用已经出现,但集中在药物开发过程的几个阶段的有限领域。大多数AI研究集中于从EHRs中的临床叙述中检测AE,少数研究探讨了试验招募优化和临床药物再利用的应用。受益于详细的、纵向的、多维度的RWD大集合和强大的AI算法,AI方法在RWD上的应用为药物开发提供了黄金机会,尤其是在识别以前未知的关联和产生新的假设方面。尽管如此,目前仍存在一些研究空白和挑战,如数据质量问题、临床数据共享困难、AI模型缺乏可解释性和可迁移性等。研究人员已经强调了人工智能和数据科学的最新进展的例子,可以解决这些挑战。
参考资料
title = "Artificial intelligence in drug discovery: what is realistic, what are illusions? Part 1: Ways to make an impact, and why we are not there yet",
journal = "Drug Discovery Today",
year = "2020",
issn = "1359-6446",
doi = "https://doi.org/10.1016/j.drudis.2020.12.009",
url = "http://www.sciencedirect.com/science/article/pii/S1359644620305274",
author = "Andreas Bender and Isidro Cortes-Ciriano",