随着信息技术的不断发展,药物设计方法学的新概念、新方法和新思路持续更新,药物发现范式也与时俱进。人工智能作为新工具,已应用于药物发现过程的多个方面,引起了制药行业的高度关注,也带来了对药物发现科学理论和方法学的新思考和新探索。
中山大学药物分子设计研究中心徐峻教授是人工智能与药物设计领域的知名学者。自上世纪 80 年代末,就长期在科研第一线从事分子信息学算法研究和药物发现实验研究,研究领域横跨化学、药学和信息科学。在本文中,徐峻教授对人工智能与药物设计学的发展进行了系统的回顾、梳理和展望,对药物发现新范式进行了深入的分析、解读和探讨。
全文概要、目录及前文见
本篇是第三节后半部分的内容。
第三节 从传统技术到颠覆性技术
3.4 深度学习技术在药物发现中的应用
人工智能辅助基于表型的药物发现。上世纪 80 年代之前,大多数创新药都是通过基于表型的发现范式 (PDD) 获得的[31]。本世纪初叶,随着基因组测序、基因克隆、结构生物学等技术的发展,药物发现范式逐渐变成由基于靶标的药物发现范式 (TDD) 主导。然而,TDD 并没有最初的希望那样效果显著[8, 32]。更重要的是,复杂疾病 (如由多个遗传因素导致的疾病) 的机理无法通过基于靶点的筛选充要地阐明[33]。于是,PDD 范式再次受到重视[34]。本世纪中叶以来,由于诱导多能干细胞、类器官定向分化、基因编辑等细胞技术和成像工具的发展,人们重新重视 PDD 范式[35, 36]在药物发现中的作用。据诺华制药 2012-2015 年管线的总结,表型筛选比基于靶标的筛选的项目有增加[35]。明显的趋势是发展更复杂的细胞分析系统和生物模型,并将 TDD 和 PDD 相结合以提升药物发现效率。先进行基于表型的筛选,然后寻靶以进行基于靶标的药物设计。
安全问题和疗效差是临床试验失败的主因。而药物靶标的不准确是导致疗效差的核心因素。2019 年的一项研究报告显示[37],根据基因(或蛋白质)-疾病关系矩阵建立的评估模型,现有的药物靶标-疾病关系的正确率仅为 0.5%。典型的例子是有丝分裂激酶 MELK 曾被认为是癌症治疗有希望的靶点,实际上不是[38],就是说目前临床上使用的 MELK 抑制剂可能通过其它机制起作用。临床试验中的许多抗癌药可能是通过非靶向机制杀死肿瘤的[39]。因此,人们不应该单纯追求药物作用于靶标,选择错误的靶标导致 75~80% 的临床试验的失败[40]。一般说来,生物药多源于 TDD,而抗菌素多源于 PDD。
虽然 TDD 的靶标误识后果严重。PDD 也有重大缺陷。因为缺乏靶标知识,寻靶过程成本很高。为了避免这两种药物发现范式的缺陷,制药企业纷纷以人工智能 (主要是机器学习技术) 辅助药物发现为新的研发战略[41-43]。
基于表型的药物发现过程从疾病-表型相关的生物学假设开始,筛选化合物得到初步的苗头化合物 (hits),根据预测的苗头化合物的吸收、分布、代谢、排泄、毒性 (ADMET),再次用基于表型的筛选 (secondary phenotypic screens) 确认并排序苗头化合物。重新合成有希望的苗头化合物并再次作药效测试,建立结构-活性关系 (SAR)。基于分子模拟和设计的结果,选择确定候选先导化合物,经过先导化合物的优化过程,选出候选药物在动物疾病模型中进行体内药效试验,最终进入临床试验。PDD 使人们能够直接观测到被测分子导致生理或疾病状态的改变的数据,发现多种可能的药理途径[44]。在肿瘤研究领域,人们经常采用 PDD(如 p38γ 和 δ 激酶抑制剂)范式发现抗肝癌的先导化合物[45]。
正确的表型分析是 PDD 成功的关键,它能重现疾病的生理状态、预测体内疗效。例如,通过直接测定细胞毒筛选抗癌活性化合物[46]。当药物发现涉及多因素的致病机理和复杂信号转导网络时,我们需要强大的表型分析工具,以可靠地预测化合物的临床效果。
当前,支持 PDD 的表型分析的研究条件有:细胞模型、基质或微环境培养条件、成像方法和数据分析。例如,源自病人的细胞模型、诱导多能干细胞 (induced pluripotent stem cells, iPS[47, 48])、三维细胞培养[49]、细胞共培养模型[50]、基因编辑[51]、微流控技术[52]、类器官技术 (organoids)[53],高通量[54]和高内涵筛选技术[55]、各种细胞或亚细胞层面的成像工具[1,56]、数据挖掘和数据可视化工具[57]。
传统上,表型筛选很难实现通量化;现在,高通量的表型筛选已经实现。例如,有作者报告了高通量自动成像表型筛选系统,筛选了 25 万小分子库,通过检测腺苷激酶的释放,报告细胞坏死 (necroptosis),发现了新颖的在体内有活性的细胞坏死抑制剂[58]。为了发现抗脊髓性肌萎缩症 (spinal muscular atrophy, SMA) 药物,有人用高通量荧光成像表型筛选系统,以人胚胎肾细胞为模型筛选了 20 万小分子,发现了 SMN (survival motor neuron) 的剪接修饰物(图 4-3-16)[59],其苗头化合物成为第一个进入临床试验的小分子剪接修饰物[60],据 2020 年 6 月公布的初步结果,二年的治疗可显著改善 2 型或 3 型 SMA 患者的运动功能。
图 4-3-16. 以人胚胎肾细胞为模型,采用高通量荧光成像表型筛选系统发现的SMN的剪接修饰物。
1997 年首次报道的高内涵成像筛选技术,集成了多种细胞参数分析工具以综合分析复杂疾病的模型[61]。该方法可以同时分析大量单个细胞的表型数据,自动定量评估多种生物学参数[62]。
尽管疾病模型、细胞培养、成像技术极大地支持了 PDD,它的主要瓶颈仍然是发现苗头化合物的靶标,深度学习在如下几个方面辅助 PDD。
3.4.1 高通量筛选产生的图像数据处理
当前的深度学习技术的勃兴源于在图像处理方面的成功。本世纪初出现的高通量表型筛选,产生了大量的图像数据需要处理。例如,高内涵筛选实验产生大量的图像数据,基于图像的形态学分析 (morphological profiling) 需要从这些数据中发现被测生物系统的各种形态特征[63]。
在显微镜下,细胞在不同生理条件下呈现出形态各异的细胞图像。深度学习技术通过形态学分析将疾病的细胞形态与正常细胞的形态区分开来,建立疾病-细胞形态关系模型,这些模型用于基于表型的药物筛选。
采用多参数分析技术,建立细胞类型-药物表型反应的关系,为活性化合物的作用机理和药物靶标的确定提供线索[64,65]。高内涵筛选成像分析、细胞图像识别、细胞形态和蛋白质表达的特征提取等任务都可以采用机器学习算法对数据进行特征选择、数据降维、和聚类分析,最终转化为可解释的细胞表型知识谱,最终将药物类型和剂量与细胞形态反应相关联[66]。
细胞形态学分析可用于预测药物作用机制 (MOA)、先导化合物的毒性、遴选先导化合物、选择化合物库的优势骨架、设计与扩充聚焦的化合物库(focused libraries)[67]。
在高通量表型筛选图像处理领域,人们主要采用传统的机器学习方法如支持向量机 (supporting vector machine)。因此,深度学习技术还有很多应用的空间。
3.4.2 化合物库的设计、合成与先导化合物的发现
经过几十年的发展,化学信息学在化合物库的设计、合成与先导化合物的发现方面有很多方法和技术。这些技术基本上还是基于传统的 QSAR 的基本原理。其基本思路是:分子的活性是分子描述符的函数,分子描述符是分子结构的函数。从分子结构导出分子描述符会引入很多经验参数,这成为 QSAR 方法的主要瓶颈。于是,人们将深度学习技术应用到化合物库的设计、合成与先导化合物的发现中,试图突破瓶颈[68,69]。例如化合物库的ADME预测[70]、合成可行性预测[71]、通过优化分子指纹以优化化合物库的结构多样性或生物活性的多样性[72]。
鉴于分子的拓扑结构可以用 SMILES 精确描述,人们将自然语言处理中常用的迁移算法 (transformer) 用于化合物库的设计[73],称为 BioTransformer,用于预测小分子体内代谢物的预测;Hit-Dexter 程序用 RNN 预测小分子是否含有不适合成药的“不良基团”(如列在 PAINS 中的易聚集、易反应、易与蛋白质非特异结合、频繁出现的有害基团或分子) [74]。以 SMILES 作为分子结构数据的输入形式,利用深度神经网络技术,通过学习各种靶向的化合物数据库或天然产物库,生成具有相似生物活性的化合物虚拟库。例如,通过学习天然产物的结构特征,产生类天然产物分子结构数据库;通过学习 ChEMBL 数据库中分子的结构特征,产生类药物分子结构数据库 [75]。这些虚拟数据库中的分子不一定存在、也不一定能被化学家制造出来,但是它们为药物的虚拟筛选提供了数据基础,启发人们的药物设计灵感。
药物虚拟筛选基于一个业界共识:“相似的分子结构有相似的生物活性”。因此,药物的虚拟筛选就是从虚拟化合物结构数据库中发现与已知生物活性的化合物结构相似的分子。最直接的药物虚拟筛选技术就是计算被测分子与已知活性分子的结构相似度。前提条件是:这种结构相似度应该与生物活性相关。
药物虚拟筛选需要把生物活性与分子结构数据关联起来,例如欧洲分子生物学实验室建立和维护的 ChEMBL、美国NIH建立和维护的 PubChem 是本领域最知名的生物活性标引的药物化学数据库。建立和标引这些数据库需要大量的人力资源和复杂的化学信息学工具[76],对小分子而言,需要标引的生物学性质越来越多、越来越复杂,例如药物靶点、非靶点、信号转导网络、细胞水平的实测数据、各种组学、形态学等数据。这些数据库的积累为人工智能应用于先导化合物的发现、设计和优化提供了必要条件[77]。
药物发现过程可以概括为:由设计-合成-生物测试三元组形成的闭环。合成是难以克服的瓶颈之一。所设计的(虚拟)分子首先要符合化学规则、并且在人体内的化学环境下是稳定的。更大的挑战是化学家能够调用各种有机化学合成手段将虚拟分子制备成化学实体。一百多年来,人们积累了大量的有机合成的知识,《Beilstein 有机化学大全》收录了最多的有机化学合成手段,并制成了可以检索的有机合成反应数据库。为了创造新颖的药物分子,仅仅靠查询有机化学反应数据库来设计化合物的合成路线是不够的,因此,上世纪 60 年代,计算机辅助合成路线设计成为人工智能技术的源头之一[78],近年来,深度学习技术应用于药物分子合成设计的研究重新受到关注[79-81]。
虚拟化合物数据库是药物虚拟筛选的基础。虚拟化合物库有两类,第一类收集了业界可提供的化合物(commercial available compounds),这些化合物实体也许暂时不存在,它们都有提供者,因此有合成的可行性,但缺少创新性;第二类是完全设计出来的,合成可行性未知,但是结构新颖,合成风险较大。随着虚拟化合物库构建技术的蓬勃发展,著名的虚拟化合物库往往收集 10 亿以上种化合物,这种超大型虚拟化合物库需要超级计算技术支持,用户需要在云计算平台上访问[82]。
传统 QSAR 研究的数据规模较小,当数据量达到“大数据”级别、阳性和阴性样本足够平衡时,深度学习算法的优势有可能得到体现[27,83,84]。深度学习是多层次、多任务学习,与化学结构数据的多次分类特征契合,适合建立多个因素与生物活性之间的关系。
药物虚拟筛选常用多隐藏层的前馈卷积神经网络(CNN),以捕捉化合物中与活性有关的特征。这类基于特征的深度学习技术可以处理单任务或多任务。单任务神经网络回答单个问题(如,该化合物与该靶标能否结合?);多任务神经网络回答多重问题(如,该化合物与哪些靶标(超过一个)结合?)[85]。多任务神经网络也用来回答针对单靶标的多重活性级别(如活性、弱活性、弱非活性、非活性)问题,例如,ChEMBL 数据库的化合物的 IC50 值,可以按照活性阈值分成上述四个等级,让算法寻找分子的特征向量与四种活性值的相关关系。多任务神经元可以形成不同架构,如金字塔型多任务网络(pyramidal multi-task DNN),它的后一层的神经元数目比前一层依次减少,适合于从复杂的原始数据提炼出简单的规律。其它神经网络架构还有:前馈 DNN、成对输入网络 (PINN)、RNN、约束波茨曼机 (Restricted Boltzmann machine, RBM)、深度信任网 (Deep belief network, DBN)、图卷积网 (GCN)。
在基于结构的虚拟筛选过程中,输入的数据是靶标-配体的特征向量对,靶标-配体能否结合问题可视为二元分类 (binary classification)问题,产生二元输出的预测。训练集从 PDB 数据库导出,包括蛋白质靶标结构数据、配体复合物数据。蛋白质的结合位点是靶标的特征向量,配体分子的分子指纹或结构描述符组成配体的特征向量,二者组成靶标-配体对特征向量输入数据。有配体的特征向量标记为阳性样本,否则标记为阴性样本。
词嵌入技术 (word2Vec)用于药物-靶标相互作用 (drug-target interaction, DTI) 预测的原理概述如下:
训练数据由配体特征向量(m个化合物描述符或SMILES字符串)和靶标特征向量(n个氨基酸序列)构成输入的特征向量(m+n维),用 word2vec 技术将输入的特征向量嵌入低维空间。化合物中的子结构和蛋白质中的关键残基 (如,酶的催化三联体) 被视为嵌入词。训练集应该由阳性样本和阴性样本组成 (样本可以取自 ChEMBL 生物活性数据库,例如用 IC50 或 Ki 值作为阳性或阴性的判据)。用 k-折交叉验证法评估模型的预测性能。鉴于全球化学家已经接受 SMILES 作为通用的化学结构线性编码,有人提出直接接受 SMILES 的 RNN 建模工具Smiles2vec [86]。
约束波茨曼机 RBM 是两层无向图模型[87]预测药物-靶标的相互作用 DTI,不属于 DNN 架构,只有一个隐藏层。然而,每个靶标都产生一个 RBM,最终的模型由多个 RBM 组成的网络。主要目的是通过整合来自不同相互作用类型的化合物和靶标的 DTI,构建多维 DTI 网络模型。配体和受体之间的相互作用类型分为直接相互作用和间接相互作用,小分子药物与靶蛋白的可以直接相互作用,也可以有间接作用 (如改变靶基因的表达水平)。用 DBN (深度信任网络) 技术实现 DeepDTI 用来预测 DTI,它是由多个 RBM 叠加而成[88]。模型不按蛋白质家族分类来训练,而是将训练集中的全部靶标集合起来训练以产生预测模型。训练数据从 DrugBank 数据库导出 (有 1412 种批准药物与 1520 个靶标形成 6262 个 DTI 对)。化合物的扩展连通性指纹(Extended Connectivity Fingerprints,ECFP)与靶标氨基酸序列合并组成药物-靶标作用对输入特征向量 (向量长度为 14564)。
卷积神经网络 CNN 是最早用于虚拟筛选的深度学习技术之一,典型的案例是 AtomNet[89]。该方法用配体-靶标复合物的三维结构信息与化合物和靶标的结构特征向量来训练CNN,将配体-靶标复合物中各原子的坐标置于 3D 网格上作为 CNN 的输入数据。每个网格由数字化的结构特征 (如原子类型、结构、蛋白质-配体相互作用指纹)。训练数据集有三个:DUD-E 数据集、和两个从 ChEMBL 导出的类似 DUD-E 的数据集 (其一由 78904 个活性化合物、2367120 个非活性化合物、290 个靶标组成,另一个由 78904 个活性化合物、363187 个非活性化合物、290 个靶标组成)。为了训练模型,所用的 sc-PDB 数据库中的靶标结合位点至少有一个注释标记。CNN 也被用来预测小分子化合物的物理化学性质和毒性[90]。
3.4.3 苗头化合物的寻靶
虽然 FDA 允许无明确靶标的候选药物进入临床试验[91],新药需要明确的作用机制(MOA)是业界共识。PDD 产生的苗头化合物需要寻靶 (target deconvolution),即使从 TBB 产生的苗头化合物也需要寻靶。一般采用化学蛋白质组学 (chemical proteomics)、亲和层析 (affinity chromatography)、蛋白质微芯 (protein microarrays) 或功能基因组学(functional genomics, 如 CRISPR, RNAi) 方法寻靶,这些方法不仅昂贵,也有不确定性[92]。因此,通过计算的方法预测苗头化合物的靶标一直受到广泛关注。
这个领域的工作主要基于传统的数据挖掘和人工智能方法。例如用主成分分析、k-最近邻(KNN)分类、Kohonen 自组织神经网络分析肿瘤异质性,监测癌细胞类型的形态学反应,预测药物作用机理[93]。传统的分层聚类方法曾被用于药物作用机理研究,将高内涵筛选 (high content screening, HCS, 在细胞和亚细胞水平上监测治疗表型反应的技术) 细胞表型的图像信息 (形状、信号强度、纹理) 的特征向量作为化合物的高内涵筛选生物指纹描述符。HCS 检测化合物作用于细胞(如 U-2OS 细胞)在不同时间间隔的表型效应 (细胞核、细胞质、内质网、高尔基体、细胞骨架), 分析已知活性的化合物,基于它们的 HCS 指纹对化合物进行聚类,建立主要细胞表型与细胞过程和蛋白质靶点之间的关联(例如发现酪蛋白激酶抑制剂Silmitasertib 是 PI3K 和 mTOR 的高活性抑制剂)[94]。
BANDIT 是另一个用传统机器学习方法预测靶标的模型,它使用多种数据类型的贝叶斯学习机预测 2 千多个小分子与 DNA 的相互作用[95]。
3.4.4 机器学习在药物发现其它领域的应用
靶向药物是针对特定靶标而研发的。这决定了靶向药物容易因为靶标的变异而失效。为靶向药物寻找合适的治疗对象,人们提出精准医学 (precision medicine) 的理念,其本质是将疾病分成亚型 (patient stratification) [96]。
2018 年 40% 的 FDA 批准的新药是个性化药物。对具体靶向药物而言,精准医学通过检测生物标志物 (biomarkers) 将患者分成四大类型(有效无副作用、有效有副作用、无效无副作用、无效有副作用)以提高临床试验的成功率[97]。临床医生用生物标志物确定疾病及其分型、制订治疗方案;药学家用生物标记物选择候选药物、评估药物是否充分暴露于作用部位、以及药物作用机制与活性-药理-临床疗效-风险的一致性,预测药物治疗的结果。
然而,人类目前对药物的生物标志物的认识非常有限,生物标志物很少进入临床验证阶段。生物标志物 (如组织学样本、分子标志物) 的检测技术包括下一代测序、质谱和微创成像等技术。生物标志物研发和验证面临如下困境:
生物标志物研发和验证面临的困境
(1) 生物标志物研发链条不连续。学术界发现新的生物标记物,临床上由监管部门批准和市场测试生物标记物的合规性,这中间缺乏共识;
(2) 生物标志物开发过程需要高质量和标准以确保结果的可重复性和可用性。然而,很多临床前研究不稳健;有报道表明,超过 50% 的临床前研究不可复制[98]。这些需要高质量样本库 (包括标准化样本采集、储存和制备) 和表型数据,以及标准化和可重复的分析方法;
(3) 可查找、可访问、可互操作和可重用的标准化生物标志物数据亟待建立。机器学习在生物标记物发现和药物敏感性预测中的应用是解决上述问题的途径之一[99]。例如,用机器视觉软件和随机森林分类器算法,分析活前列腺癌和乳腺癌样本中原代细胞的表型生物标记物高内涵筛选数据,预测术后结果,确定患者风险等级[100]。用无监督聚类法分析用化学基因组库,预测 FDA 批准的多发性骨髓瘤治疗药物的敏感性,建立药物敏感性-临床表型-患者基因图谱之间的关联[101],确定药物敏感性与患者亚群的关联。
为了预测药物的疗效或药物脱靶引起的安全问题,药物的 ADMET 性质预测一直受到关注[2]。药企和药物监督部门尤其关心药物与细胞色素 P450(cytochrome P450或CYP450,简称CYP450)相互作用引起的毒性问题[102]。虽然这些问题已经被研究许多年,人们依然期待现代的人工智能技术能够提高预测的准确率[103]。
微生物病原体[104]、药物之间的相互作用 (drug-drug interactions, DDI, 即药物的配伍问题)、血脑屏障问题[105]也能导致药物引起的不良反应,或新药临床试验的失败。机器学习的技术在这些领域也应该发挥优势。2019 年报道的 NDD 程序 (https://github.com/nrohani/NDD) 综合分析药物分子的子结构、靶点、副作用、信号转导途径、转运体和适应症数据,用神经网络方法预测DDI,先用启发式相似性选择过程,然后将选择的相似性与非线性相似性融合,以获得高层次的特征[106]。
药物再利用 (drug repurposing) 的成本低、临床潜力高,是很吸引人的药物研发策略。人们自然地想到用人工智能方法预测已知药物可能有的其它药效[107]。Broad 研究所为此推出了“药物再利用数据中心”(the drug repurposing hub) [108]。该中心收集 4707 种进入临床阶段的化合物,涵盖 1988 种获批准或上市的药物、1348 种临床 I~III 的药物。这个开源数据支持了很多基于机器学习算法的药物再利用项目。
人工智能技术的发展,还促进了人们对老数据的再利用。例如,比利时和美国科学家合作用深度学习方法再分析了 50 万个小分子对糖皮质激素受体作用的数据[109]。据报道,它们使药物筛选的命中率增加了 50-250%[110]。
3.5 文本挖掘与药物发现
人类基因组计划完成之后,数字化的生物医学信息呈现爆炸式增长。大多数生物医学数据源(如生物医学文献 (科学出版物、临床试验、指南文献)、患者电子健康记录 (HER) 和护理数据、临床医生笔记、社交媒体中与健康相关的用户帖子和 Web 搜索日志)都是非结构化的。光靠人类阅读已经不能充分利用这种巨量的信息。而正确解读这种巨量信息对理解疾病的病因、识别新出现的流行病和地方病、临床和科学技术决策非常重要。需要文本挖掘 (text-mining) 技术加以利用[111]。生物医学文本挖掘是生物医学信息自动提取技术,目的是使用算法、统计和数据管理技术提炼隐藏在非结构化文本数据中的隐含知识,并对抗信息过载[112],文本挖掘与本体论 (ontology) 结合还可以通过结合从不同出版物中提取的信息来产生新的假说[113],这些假说经过严谨的实验验证,导致隐藏知识的发现,推动药物创新。
一项新的研究计划应该从文献综述开始,文本挖掘技术可以提高文献综述的效率和系统性,甚至产生新的研究思路[114]。
生物医学文本挖掘过程概述如下[115,116]:
3.5.1 信息检索 (information retrieval, IR)
根据给定的主题词 (一组关键字) 查询搜索引擎和书目数据库,如 PubMed (www.ncbi.nlm.nih.gov/PubMed/)。其它信息资源还可以是患者记录、网站、专利、生物医学相关博客、药物警戒报告和不良事件报告。一般采用 Google Scholar 搜索引擎,因为它涵盖了生物医学领域的主要文本资源,如 Science Direct、Sage、Springer、Wiley、Taylor&Francis、Emerald、IEEE 和 ACM、PLOS ONE、JAMIA(美国医学信息学协会杂志)、BMC (生物医学中心杂志)、生物医学信息学杂志以及临床药理学和治疗学杂志。另一个学术搜索引擎是 BASE (Bielefeld Academic Search Engine)[117];
由于文本挖掘领域中使用的术语的多样性,关键字搜索可能过于局限。例如,一些研究可能侧重于特定的文本挖掘技术,如“概念提取”、“自然语言处理”或“信息提取”。因此,关键字搜索之后,手动筛选原始参考文献[114];
3.5.2 标记实体的辩识 (named entity recognition, NER)
用搜索算法分析文档,以辩识特定关键字之间的关系,提取标记实体和概念。标记实体是单个或一组关键字。将提取的关键字链接到文本文档中引用的概念。由于症状、药物和疾病等实体名称的不一致性,NER 相当困难。例如,一种药物通常有商品名、化学名、俗名和各种同义词。需要采用统一医学语言系统 (UMLS) 加以规范 [118];
3.5.3 信息提取 (information extraction, IE)
用算法来检测文本中概念之间的关联性。通常采用共现的方法 (co-occurrence-based methods, CBM),和自然语言处理 (NLP) 方法。CBM 假设:如果两个概念共同出现,则它们在功能上是相关的,用评分算法来量化两者最相关的关系。NLP 算法用于识别概念之间的关系类型,需要事先理解语言结构和文献中典型的表达方式;
3.5.4 知识发现 (knowledge discovery)
通过分析大量的数据自动提炼出新知识,一般基于关联规则 (association rule mining)。得出的新知识需要严格的统计数据来验证[115];
3.5.5 可视化 (visualization)
例如在文本中高亮显示被 NER 提取出来的概念、在表格中显示关键字之间的关系、用评分算法过滤和排序关键词、文献网络图、知识图。
文本挖掘已经在药物靶点筛选、药物基因组学、药物不良事件预测中得到了应用[119]。
3.6 人工智能在药物设计中应用的局限性
人工智能在药物发现领域的应用取得了显著的进步,凸显了数据驱动本行业发展的重要性。人工智能需要大量、高质量、正确注释、良好格式化、正反例样本数的平衡、彼此具有可比性的数据,而现实往往不能满足对数据的上述要求[120]。
这一波的人工智能技术潮主要是从语音识别、图像处理、机器翻译、语义分析、自动导航/驾驶等领域发展起来的,这些算法所要解决的问题具有一定的普适性,因此可以用于解决药物发现领域的问题。然而,药物发现所面临的问题也有特殊性:
(1) 被实验确认为阳性的化合物数据量较多,而被实验确认为阴性的化合物数量很少,这两个数量严重不平衡。这种现象必然影响机器学习的效果;
(2) 实验获得的药物分子的生物学数据成本很高,因此本领域的数据量相对较小,除了基因组、蛋白质组、以及其它组学数据、和医学诊断产生的图像数据是大数据之外,还有很多虽然不是大数据,但仍然需要用机器学习来解决的问题;
(3) 除了人工智能算法和药物作用的机理都各自存在固有的复杂性,这要求药物设计研究人员和算法设计人员对彼此领域的知识保持开放的态度,对这两个领域的基本理论和原理有足够理解。
(4) 人工智能技术设计或预测的结果最终需要生物学、药学、和化学实验验证。而理论与实验的差距会因为对机制的不了解而扩大,对人工智能算法所得的结果往往解释困难,而科学机理问题也不是人工智能技术本身能解决的问题[42, 121]。例如,人工智能设计的合成路线在化学合成实践中仍面临挑战;依靠机器学习技术解决药物化学的“活性断崖”挑战还是难度很大的。
客观地看待人工智能的作用是必要的,最近,英国初创企业 Exscientia 和日本住友大力邦制药公司 (Sumitomo Dainippon Pharma) 宣称他们用人工智能技术设计的抗焦虑症药物 DSP-1181 是 5-HT1a 受体激动剂,只需 12 个月就能进入临床,而新药研发通常需要几年到几十年。他们的宣称很快遭到质疑,因为 5-HT1a 受体靶点在焦虑症中的作用已经被认识十多年了[122]。
药物发现项目的成功需要in silico、in vitro、in vivo 三大实践的共同努力[123]。学术界、制药工业界和新型的人工智能数据分析公司结成新的联盟[124],新的药物研发范式呼之欲出[120, 125]。药物数据库的开源化[126, 127]、对算法的评估的展开将促进新的药物研发范式的成熟[128,129]。