文章/答案/技术大牛

发布

社区首页 >专栏 >榕树集--计算方法优化药物发现

榕树集--计算方法优化药物发现

DrugScience

发布于 2023-11-14 10:55:37

4610

文章被收录于专栏：DrugScienceDrugScience

简介

拿一个上午阅读了一篇文章，感觉很不错，推一下。文章发表于今年的 4 月左右，还很新。

作者 Anastasiia V. Sadybekov 是做高通量筛选的专家，我最近看的有关她的文章是 2022 年的基于 Synthon 进行百亿级别的药物筛选。我之前也写过相关的推文：

列在下方

超量化合物库筛选策略–P1

这是 Geogle scholar 的检索结果：

‍

计算辅助药物发现（CADD）已经存在了几十年，在此期间学术界和制药界都发生了翻天覆地的变化。变化主要集中于：配体属性信息，靶点的 binding 信息，蛋白质 3D 结构信息的爆发，计算资源的拓展，小分子筛选空间的拓展等等方面。

本文主要回顾了：

基于配体的药物研发技术的进展以及遇见的挑战
如何快速识别多样性的、结合强的、靶点选择性高的类药性配体。

主体

尽管在基础生命科学和生物技术方面取得了惊人的进展，药物的发现和开发（drug discovery and development ，DDD）仍然非常耗时且昂贵，平均需要大约 15 年和大约 20 亿美元来开发一种小分子药物。

我记得之前是 10 年 10 亿刀 10% 成功率，现在感觉研发越发昂贵了。

计算机辅助药物研发（computer-aided drug discovery，CADD）的概念在 20 世纪 70 年代提出并且逐步发现。1981 年时，由《财富》（Fortune）杂志广泛传播，此后经历了几轮炒作和幻灭。总体上，计算辅助方法已经成为药物发现过程中一个不可或缺但相对平稳的部分。然而，在过去的几年里，一些科学和技术突破导致了计算方法重新登上了浪头。制药和生物技术公司正在扩大其计算药物的能力。许多新老药物研发公司通过基于物理的分子建模与深度学习（DL）和人工智能（AI）相结合的商业模型，筹集了（捞了）数十亿美元。现在期望计算驱动中获取一款 FDA approved 的药物还是为时过早，但是不可忽略的是计算正在产生越来越多的临床候选药物。一些项目宣称 target-to-lead 的时间低至 1-2 个月，或者 target-to-clinic 时间不到 1 年。

这些迹象是计算方法在药物领域扮演角色发生重大变化的前兆？还是又一轮炒作的开始？

Hhh 我想起了一句话：我们距离真正的直接计算药物研发落地还有好几个 Alphafold2 的距离。各位资本大佬可以尝试一下，毕竟股票是主观的，无法建立一个真正的 AI model，但是科学研究是客观的存在的。🐶

先看一下影响近期变化的关键因素：

结构革命：冷冻电镜技术的的结构革命可以揭示大多数临床相关靶点的 3D 结构，并且通常与其生物功能相关的状态。
类药空间的爆炸：类药化学空间的快速的扩充，便于 hits 和 lead 的发现。几年前，这个空间仅限于制药公司的几百万内部的筛选库。现在，筛选可以使用超大型虚拟库，可以筛选数十亿的化合物，理论上预测的可合成性的化学空间则更为庞大。
新兴的计算方法：基于 3D 结构和配体数据的增长，以及 Cloud 和 GPU 计算资源的普及，这些计算资源支持了大规模的筛选。

化学空间的拓展

Bigger is better

长期以来，筛选库的大小和多样性一直是整个药物发现过程的瓶颈。

一个 “经济适用型” 的高通量筛选库（HTS）通常是约 50,000 至 500,000 个化合物，并且预计在初期验证后只能产生很少的 hits。而产生的这些 hits 通常相当弱，非选择性，且具有未知的结合模式以及药理属性。因此通常需要多年的艰苦试错优化工作，才能产生满足临床需求的药物。而将将 HTS 扩展到百万级化合物库，仅有大型制药公司中才能负担得起，在 hits 的质量方面却没有太大的区别。同样，使用虚拟库通常仅限于供应商现有库存，大概一般不到 1 千万个独特化合物，因此与 HTS 相比，规模上的优势较小。

尽管追求庞大的类药化学空间（估计超过 $10^{63}$ 个化合物），目前来说基本是徒劳的。但是将化学空间拓展到数十亿乃至更多，这样量级的化学空间会改变药物研发模式。

首先，庞大的化学空间可以可以在初始筛选中成比例地增加潜在的 hits 数量。在库中的配体丰富性的影响下，hits 可能具有更强的结合，更高选择性，更好的物理化学属性。
其次，通过在相同的 on-demond 空间中获取与 hits 类似的化合物，简化了结构 - 活性关系（SAR）的生成，可以直接通过目录进行检索，并进一步的优化，繁琐的定制合成步骤大大减少。
最后，尽管库的规模很重要，但使用正确的方法构建的巨型库可以提升库的化学多样性（即使只有少数几种化学反应），增加 hits 的新颖性，因为几乎所有 on-demand 化合物之前都从未被合成过。

实体库

最近已经发展了一些方法来推动高通量筛选（HTS）中的用于筛选的库限制，例如：组合化学和大规模混合化合物以进行并行测定。例如，可以应用亲和选择质谱技术，在不需要标记的情况下，直接在数千个化合物的混合物中识别结合物；也可以使用 DNA 编码库（DNA-encoded libraries，DELs），这一经济高效的生成和筛选方法，在单个试管中可以处理多达约 $10^{10}$ 个化合物。但是这些方法各有其局限性，由于 DELs 是通过连接物质与唯一的 DNA 序列标记而创建的，DELs 可能通过 DNA 标签的非特异性结合产生大量的假阴性，因此需要进行验证（比较昂贵）。

虚拟 On-Demond 库

长期以来，构建虚拟库并进行筛选，一直被认为是一种经济有效的探索药物库空间的方式。然而，直到最近以来，基于合成化学和化学信息学方法的发展，我们才得以突破限制，构建虚拟 on-demond library，用于探索更大的化学空间，详细见文献。在 2017 年，Enamine 开发的 REAL（Readily Accessible）数据库是首个基于 reation principle 的商业上可获取的 on-demond library，而美国国立卫生研究院开发了合成可及虚拟库（synthetically accessible virtual inventory，SAVI），该库也使用 Enamine 的 building block。

REAL 库可以保证在短时间内（不到 4 周）快速、可靠（80% 成功率）且经济实惠地合成一系列化合物。在新的反应和多样的构建单元的推动下，REAL 数据库的完全枚举已经从 2017 年的约 1.7 亿个化合物增长到 2022 年的超过 55 亿个，构成了 ZINC20 虚拟筛选数据库的大部分。REAL 库的实用性已经得到了验证，一些研究产生纳摩尔配体，而无需进行定制合成。类似的超大型 virtual library（例如 GalaXi（http://www.wuxiapptec.com）和 CHEMriya（http://chemriya.com））也可以在商业上获得，但是它们的合成成功率尚未公布。

虚拟化学空间

随着添加反应以及 building block 的不断添加，on-demond 虚拟库的的规模不断增加。然而，构建、维护和搜索包含数十亿以上化合物的完全枚举化学库变得缓慢且不切实际。因此，这类巨大规模的虚拟库通常存储为非完全枚举的化学空间，其由一组特定的 building blocks 和反应所定义。

在商业上可获得的化学空间中，WuXi 的 GalaXi Space（约 80 亿化合物）、Otava 的 CHEMriya（118 亿化合物）和 Enamine 的 REAL Space（360 亿化合物）是最大且最为成熟的化学库。并且除了其非常庞大之外，这些化学空间非常新颖和多样，彼此之间的重叠很小（不到 10%）。

目前，最大的商业库，Enamine REAL Space 涵盖了超过 170 个反应和超过 137,000 个 building block。其中大部分反应是二组分或三组分的，但也正在探索更多的四组分甚至五组分反应，实现更高阶的组合。这个库可以根据可用的 reactions 和 building block 轻松扩展到 $10^{15}$ 个化合物。

另一种构建化学空间的替代方法是根据合成可行性和化学稳定性的简单规则生成假设可合成的化合物。因此，生成的数据库（GDB）预测可以由特定数量的原子构成的化合物；例如，GDB-17 包含了最多含有 17 个 C、N、O、S 和卤素原子的 166.4 亿个分子，而由 18 个原子组成的 GDB-18 则估计可达到 $10^{13}$ 个化合物。基于对化学空间更狭义定义的其他生成方法如今被用于基于深度学习的生成化学设计。

一些商业 on-demond 化学空间（例如 Enamine REAL Space）的合成成功率已经经过充分验证，其他化学空间的合成可及性和成功率仍未公开。

药物设计中的计算方法

十亿规模筛选的挑战

十亿和万亿的化学空间，只要这个空间保持高度的类药性和多样性，那么对于任何靶标来说，这个化学空间将包含数百万潜在的 hits 和成千上万个潜在的 lead 系列。此外，这个化学空间的高度可操作性（合成）简化了下游的药物化学工作。

当然，处理这样级别的虚拟库需要新的计算方法。

速度：必须足够快，处理十亿尺度的药物库，如果 10s/core/mol，那么在单个 CPU 核心上筛选 $10^{10}$ 个化合物将需要超过 3,000 年，或者在计算云上，以最便宜的 CPU 价格，也要花费约 100 万美元。
准确率：亿尺度的筛选必须非常准确，以防假阳性，打分函数具有一定的缺陷。使在 $10^{10}$ 个空间中出现一百万分之一的假阳性率，也将包括 10,000 个虚假的活性物质，可能会淹没活性物质。一些补救措施包括：（1）基于两个不同打分函数的共识进行选择，（2）选择高度多样化的活性物质，（3）从多个打分范围中进行选择和（4）手动筛选最终的化合物列表以排除异常的相互作用。得分灵敏度上进行一些权衡是可以接受的。

筛选蛋白质靶点寻找潜在配体的主要计算方法总结在表 2 中。在下文中，我们将讨论一些新兴技术以及它们如何最好地融入整体的 DDD 流程，以充分利用不断增长的按需化学空间。

基于受体结构的筛选

略

以合成子（synthon）为基础的新方法

从早期药物发现的年代起，从分子片段库中选取最优片段以填充受体结合口袋的想法就已经存在，例如在 LUDI 算法。然而，所设计出的化合物的定制合成仍然是这类方法的主要瓶颈。最近开发的虚拟合成子分层枚举筛选（V-SYNTHES）技术将基于片段的设计应用于 on-demond 化学空间，从而避免了定制合成的困难。

从 REAL Space 反应和 building block（合成子）开始，

V-SYNTHES 首先制造一个最小库，这个库一侧被封闭（使用甲基或苯基），另外一侧开放。
然后，基于对接的筛选获取到得分最高的片段，对另外一个位置重复这个过程，每次迭代都对目标口袋进行筛选。
在最后一步，从 REAL Space 选出的前约 50,000 个完整化合物将进行更精细和准确的对接，然后对排名靠前的候选物进行新颖性、多样性和类药性质的筛选。
选择最佳的 50-500 个化合物进行合成和测试。

在 V-SYNTHES 算法中将合成子与支架结合，并使用虚拟最小团封顶是获得最佳片段的关键，因为 building block 和支架的反应性基团通常会创建非常强但错误的相互作用，这在完整分子中是不存在的。算法的另一个重要部分是在靶标中评估片段结合位姿，该评估优先考虑那些最小封顶指向口袋区域的 hits（因为该区域有空间进行生长）。

除了支持丰富性、化学多样性的优点外，基于结构的模块方法在识别化学新颖性的 hits 方面尤为有效，因为它们（1）不依赖于现有配体的信息，（2）存在非常多的之前从未合成过的配体。这是确保从十亿尺度筛选出 hits 和 leads 重要因素。

数据驱动的方法和 DL

在基于 AI 的人脸识别、ChatGPT 和 AlphaFold 等技术的时代，数据驱动的深度学习方法在药物发现的各个阶段也存在着巨大的场景。

数据驱动方法在药物发现中有着悠久的历史，其中机器学习算法，如支持向量机、随机森林和神经网络，尽管效果参差不齐，但已被广泛用于预测配体性质和靶点活性。

药物发现的关键愿景是开发出通用性的 AI 模型。其中一个方向是从已知配体活性和蛋白质 - 配体 3D 结构数据中提取结合亲和力的通用模型，例如在 PDBbind 数据库中收集的数据或从对接中获得。然而，最近的一项研究发现，无论神经网络架构如何，PDBbind 复合物中非共价分子间相互作用的详细描述与仅包含配体或只包含受体省略相互作用的简单逼近相比，并未显示出任何统计优势。因此，基于 PDBbind 的深度学习模型的良好性能依赖于其记忆了相似的配体和受体，而不是捕捉通用结合信息。对于这种现象的一个可能解释是，PDBbind 数据库没有充分呈现 “负空间”，即具有次优相互作用模式的配体，以强化训练。

Hybrid computational approaches

正如前文所讨论的，基于物理和数据驱动的方法在预测配体效力方面都具有明显的优势和局限性。基于结构的对接预测天然适用于任何具有 3D 结构的靶点，并且可以更准确。相反，数据驱动方法可以在没有结构的情况下工作，尤其在使用 GPU 加速的情况下速度更快。

在虚拟筛选方法中，将基于物理的对接与基于数据的打分函数协同使用可能会非常有效。如果基于物理的和基于数据的评分函数相对独立，并且两者都在所选库中生成了富集，它们的组合可以降低虚假阳性率并提高 hits 的质量。
在更深层次上，准确的基于物理的对接结果（除了来自 PDBbind 等的实验数据）可以用于训练预测配体 - 受体亲和力的深度学习模型。这将有助于显着扩展训练数据集并平衡阳性和阴性（次优结合）case。
为了扩展对接的适用范围，以适应那些缺乏高分辨率结构的靶点，使用 AI 衍生的 AlphaFold2 或 RosettaFold 输出的蛋白质 3D 模型也是一个不错的选择。

但是对于那些缺乏实验结构的靶点，尤其是对于在结合口袋中缺乏明显结构同源性的靶点类型，AlphaFold2 模型性能令人失望（针对 GPCR 和抗菌靶点的评估）。

未来挑战

进一步扩大可获取的化学空间

可以探索更多的组分，目前最多应用的是 V-SYNTHES 的 2，3 组分，可以探索 4，5，6 组分空间，来拓展规模
除了 “经典” 的偶联反应 click chemistry，2022 年诺贝尔化学奖，以及优化的 click-like 反应，其他的偶联反应也可以尝试。
更为鲁棒的化学空间生成还可以依靠合成化学的新计算方法，例如逆合成路线分析。

展望

无论模型有多么准确，它们也远无法确保所有的预测都是正确的。实际上，最好的虚拟筛选通常会在实验验证中确认 10% 到 40% 的 hits，而在优化中使用的最佳亲和力预测准确性很少能达到比 1kcal mol-1 均方根误差。因此，计算预测始终需要在管道的每个阶段进行牢固的体外和体内验证。同时，体内体外的数据也可以返回给计算模型进行调优。‍

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-11-13，如有侵权请联系 cloudcommunity@tencent.com 删除

数据库