本文是诺华官网对data42项目的介绍。
虽然人工智能已经存在了几十年,但最近深度学习领域的发展使数据科学家能够实现令人惊讶的飞跃。与传统的机器学习算法不同的是,深度学习将算法分层应用,创建一个"人工神经网络",可以自行学习并做出智能决策。
这种突破开辟了新的研究途径,可以帮助解决我们这个时代的一些最大的医疗挑战。这包括对飙升的研究和开发成本的控制,以及寻找创新的方法来治疗今天只有有限或没有治疗选择的疾病。
这些挑战确实很大。今天,将一种新疗法推向市场需要投资20多亿美元,平均需要10年以上的时间。在临床测试的10个分子中,只有1个能进入市场。
在医疗方面,需求也在增加。虽然在过去的十年中,美国批准了大约500种药物,但医疗需求仍与以往一样高。例如,许多慢性和与年龄有关的疾病,如阿尔茨海默氏症,仍然难以治疗,而对于7000多种已知的罕见疾病中的大多数,没有创新的医疗选择。
"当然,我们还不知道我们在使用这种新的数据和数字技术时将会发现什么,"data42的技术负责人Pascal Bouquet说。"但我们坚信,我们将能够找到今天不可能的洞察力。我们相信,我们可以找到迄今为止没有看到的金矿,从长远来看,我们甚至可以完全基于数据来设计和发现新药。"
这些希望促使传统的制药企业加强其数字专业知识,也吸引了谷歌、IBM和苹果等新公司进入医疗保健领域,希望开发创新疗法,颠覆传统药物开发模式。
200万患者年的数据
诺华相信它在这个新兴领域有优势。"我们的系统中有大约200万患者年(patient-years,患者年是所有患者某一需要关注的时间段的总和)的数据",Bouquet说,"这是至关重要的资产,在我们应用人工智能工具筛选数据并找到药物和疾病之间迄今为止未知的关联时,它将起到至关重要的作用。"
为了实现这一愿景,所有的临床和研究数据,加上潜在的真实世界数据、成像数据和传感器数据,首先需要被结构化并转移到一个单一的平台,以创建一个所谓的"数据湖"。这说起来容易做起来难,因为单个数据集经常使用不同的参数来表示数据点,如性别、年龄、家庭和疾病状况。
"所有这些数据都需要进行清理和策划,以使它们可以被机器学习。这是艰苦而繁琐的工作,但它使我们的数据科学家能够专注于用数据回答问题,"data42公司负责产品开发的Peter Speyer说。
数据规模是巨大的。仅仅是研究和开发投入就包括20PB的数据,相当于一个MP3播放器上大约4万年的音乐。
挖掘数据宝藏
这个由诺华生物医学研究所(NIBR)、全球药物开发(DDD)和诺华商业服务(NBS)的100多人组成的团队迄今已取得了巨大进展。他们已经将2000多项临床研究引入该平台,并测试了十几种机器学习模型,这些模型可以帮助找到深埋在数据中的新信息。
为了获得牵引力和建立证明点,data42的领导层已经设定了短期的、以业务为导向的目标,专注于非常具体和精确的任务。最近开始的一个这样的项目,旨在根据类风湿性关节炎领域的生物特征来识别疾病亚型。
"对于这个项目,我们正在努力清理我们在这个疾病领域的现有试验数据,这是一个可以在相对较短的时间内完成的任务,"Speyer说。"我们的目标是确定对我们的一种治疗方法有高度反应的亚群。如果我们找到了这些,将有可能建立一个新的试验,并在临床上测试这些发现。"
对问题的思考
在目前的其他项目中,该团队还在研究某些癌症适应症的疾病进展情况。
而更多的内容还没有到来,因为data42团队正在努力对数据进行微调,并创建一个巨大的数据湖,在其中潜心寻找迄今为止逃过大家注意的信息片段。
Speyer说:"一旦所有的数据被整理出来,产生新的见解的潜力可能是巨大的。"因此,无论你有什么问题,例如,关于心力衰竭,只要心力衰竭被捕捉到作为一种感兴趣的疾病--作为一种合并症或副作用,我们就可以将其拉入分析。这就是data42的可扩展性"。
如果data42没有辜负它的承诺,它也有可能改变数据科学家与实验室科学家和临床科学家合作的方式。Bouquet解释说:"你将看到的是,准备数据的数据科学家与了解问题和需要从数据中检索的内容的医学科学家之间加强合作。"
然而,无论是生物学家和化学家还是医生都不会被新的数字工具所取代,这些工具只有在他们收到输入的时候才会有效果。"有时候,当你精心设计一个问题时,结果发现解决方案并不像你想象的那么复杂,"Plueckebaum解释说。"你不需要对每个问题都使用所有这些人工智能。对于一些问题,你只需要回到统计学中去。你找到正确的数据。你应用正确的方法,你就能得到答案。对问题的思考确实有助于加速和提高洞察力,无论是否有人工智能。"
参考资料
https://www.novartis.com/stories/data42-program-shows-novartis-intent-go-big-data-and-digital
--------- End ---------