Loading [MathJax]/jax/input/TeX/jax.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >榕树集--计算方法优化药物发现

榕树集--计算方法优化药物发现

作者头像
DrugScience
发布于 2023-11-14 10:55:37
发布于 2023-11-14 10:55:37
4610
举报
文章被收录于专栏:DrugScienceDrugScience

简介

拿一个上午阅读了一篇文章,感觉很不错,推一下。文章发表于今年的 4 月左右,还很新。

作者 Anastasiia V. Sadybekov 是做高通量筛选的专家,我最近看的有关她的文章是 2022 年的基于 Synthon 进行百亿级别的药物筛选。我之前也写过相关的推文:

列在下方

超量化合物库筛选策略–P1

这是 Geogle scholar 的检索结果:

计算辅助药物发现(CADD)已经存在了几十年,在此期间学术界和制药界都发生了翻天覆地的变化。变化主要集中于:配体属性信息,靶点的 binding 信息,蛋白质 3D 结构信息的爆发,计算资源的拓展,小分子筛选空间的拓展等等方面。

本文主要回顾了:

  • 基于配体的药物研发技术的进展以及遇见的挑战
  • 如何快速识别多样性的、结合强的、靶点选择性高的类药性配体。

主体

尽管在基础生命科学和生物技术方面取得了惊人的进展,药物的发现和开发(drug discovery and development ,DDD)仍然非常耗时且昂贵,平均需要大约 15 年和大约 20 亿美元来开发一种小分子药物。

我记得之前是 10 年 10 亿刀 10% 成功率,现在感觉研发越发昂贵了。

计算机辅助药物研发(computer-aided drug discovery,CADD)的概念在 20 世纪 70 年代提出并且逐步发现。1981 年时,由《财富》(Fortune)杂志广泛传播,此后经历了几轮炒作和幻灭。总体上,计算辅助方法已经成为药物发现过程中一个不可或缺但相对平稳的部分。然而,在过去的几年里,一些科学和技术突破导致了计算方法重新登上了浪头。制药和生物技术公司正在扩大其计算药物的能力。许多新老药物研发公司通过基于物理的分子建模与深度学习(DL)和人工智能(AI)相结合的商业模型,筹集了(捞了)数十亿美元。现在期望计算驱动中获取一款 FDA approved 的药物还是为时过早,但是不可忽略的是计算正在产生越来越多的临床候选药物。一些项目宣称 target-to-lead 的时间低至 1-2 个月,或者 target-to-clinic 时间不到 1 年。

这些迹象是计算方法在药物领域扮演角色发生重大变化的前兆?还是又一轮炒作的开始?

Hhh 我想起了一句话:我们距离真正的直接计算药物研发落地还有好几个 Alphafold2 的距离。各位资本大佬可以尝试一下,毕竟股票是主观的,无法建立一个真正的 AI model,但是科学研究是客观的存在的。🐶

先看一下影响近期变化的关键因素:

  1. 结构革命: 冷冻电镜技术的的结构革命可以揭示大多数临床相关靶点的 3D 结构,并且通常与其生物功能相关的状态。
  2. 类药空间的爆炸:类药化学空间的快速的扩充,便于 hits 和 lead 的发现。几年前,这个空间仅限于制药公司的几百万内部的筛选库。现在,筛选可以使用超大型虚拟库,可以筛选数十亿的化合物,理论上预测的可合成性的化学空间则更为庞大。
  3. 新兴的计算方法:基于 3D 结构和配体数据的增长,以及 Cloud 和 GPU 计算资源的普及,这些计算资源支持了大规模的筛选。

化学空间的拓展

Bigger is better

长期以来,筛选库的大小和多样性一直是整个药物发现过程的瓶颈。

一个 “经济适用型” 的高通量筛选库(HTS)通常是约 50,000 至 500,000 个化合物,并且预计在初期验证后只能产生很少的 hits。而产生的这些 hits 通常相当弱,非选择性,且具有未知的结合模式以及药理属性。因此通常需要多年的艰苦试错优化工作,才能产生满足临床需求的药物。而将将 HTS 扩展到百万级化合物库,仅有大型制药公司中才能负担得起,在 hits 的质量方面却没有太大的区别。同样,使用虚拟库通常仅限于供应商现有库存,大概一般不到 1 千万个独特化合物,因此与 HTS 相比,规模上的优势较小。

尽管追求庞大的类药化学空间(估计超过 1063 个化合物),目前来说基本是徒劳的。但是将化学空间拓展到数十亿乃至更多,这样量级的化学空间会改变药物研发模式。

  • 首先,庞大的化学空间可以可以在初始筛选中成比例地增加潜在的 hits 数量。在库中的配体丰富性的影响下,hits 可能具有更强的结合,更高选择性,更好的物理化学属性。
  • 其次,通过在相同的 on-demond 空间中获取与 hits 类似的化合物,简化了结构 - 活性关系(SAR)的生成,可以直接通过目录进行检索,并进一步的优化,繁琐的定制合成步骤大大减少。
  • 最后,尽管库的规模很重要,但使用正确的方法构建的巨型库可以提升库的化学多样性(即使只有少数几种化学反应),增加 hits 的新颖性,因为几乎所有 on-demand 化合物之前都从未被合成过。

实体库

最近已经发展了一些方法来推动高通量筛选(HTS)中的用于筛选的库限制,例如:组合化学和大规模混合化合物以进行并行测定。例如,可以应用亲和选择质谱技术,在不需要标记的情况下,直接在数千个化合物的混合物中识别结合物;也可以使用 DNA 编码库(DNA-encoded libraries,DELs),这一经济高效的生成和筛选方法,在单个试管中可以处理多达约 1010 个化合物。但是这些方法各有其局限性,由于 DELs 是通过连接物质与唯一的 DNA 序列标记而创建的,DELs 可能通过 DNA 标签的非特异性结合产生大量的假阴性,因此需要进行验证(比较昂贵)。

虚拟 On-Demond 库

长期以来,构建虚拟库并进行筛选,一直被认为是一种经济有效的探索药物库空间的方式。然而,直到最近以来,基于合成化学和化学信息学方法的发展,我们才得以突破限制,构建虚拟 on-demond library,用于探索更大的化学空间,详细见文献。在 2017 年,Enamine 开发的 REAL(Readily Accessible)数据库是 首个基于 reation principle 的商业上可获取的 on-demond library,而美国国立卫生研究院开发了合成可及虚拟库(synthetically accessible virtual inventory,SAVI),该库也使用 Enamine 的 building block。

REAL 库可以保证在短时间内(不到 4 周)快速、可靠(80% 成功率)且经济实惠地合成一系列化合物。在新的反应和多样的构建单元的推动下,REAL 数据库的完全枚举已经从 2017 年的约 1.7 亿个化合物增长到 2022 年的超过 55 亿个,构成了 ZINC20 虚拟筛选数据库的大部分。REAL 库的实用性已经得到了验证,一些研究产生纳摩尔配体,而无需进行定制合成。类似的超大型 virtual library(例如 GalaXi(http://www.wuxiapptec.com)和 CHEMriya(http://chemriya.com))也可以在商业上获得,但是它们的合成成功率尚未公布。

虚拟化学空间

随着添加反应以及 building block 的不断添加,on-demond 虚拟库的的规模不断增加。然而,构建、维护和搜索包含数十亿以上化合物的完全枚举化学库变得缓慢且不切实际。因此,这类巨大规模的虚拟库通常存储为非完全枚举的化学空间,其由一组特定的 building blocks 和反应所定义。

在商业上可获得的化学空间中,WuXi 的 GalaXi Space(约 80 亿化合物)、Otava 的 CHEMriya(118 亿化合物)和 Enamine 的 REAL Space(360 亿化合物)是最大且最为成熟的化学库。并且除了其非常庞大之外,这些化学空间非常新颖和多样,彼此之间的重叠很小(不到 10%)。

目前,最大的商业库,Enamine REAL Space 涵盖了超过 170 个反应和超过 137,000 个 building block。其中大部分反应是二组分或三组分的,但也正在探索更多的四组分甚至五组分反应,实现更高阶的组合。这个库可以根据可用的 reactions 和 building block 轻松扩展到 1015 个化合物。

另一种构建化学空间的替代方法是根据合成可行性和化学稳定性的简单规则生成假设可合成的化合物。因此,生成的数据库(GDB)预测可以由特定数量的原子构成的化合物;例如,GDB-17 包含了最多含有 17 个 C、N、O、S 和卤素原子的 166.4 亿个分子,而由 18 个原子组成的 GDB-18 则估计可达到 1013 个化合物。基于对化学空间更狭义定义的其他生成方法如今被用于基于深度学习的生成化学设计。

一些商业 on-demond 化学空间(例如 Enamine REAL Space)的合成成功率已经经过充分验证,其他化学空间的合成可及性和成功率仍未公开。

药物设计中的计算方法

十亿规模筛选的挑战

十亿和万亿的化学空间,只要这个空间保持高度的类药性和多样性,那么对于任何靶标来说,这个化学空间将包含数百万潜在的 hits 和成千上万个潜在的 lead 系列。此外,这个化学空间的高度可操作性(合成)简化了下游的药物化学工作。

当然,处理这样级别的虚拟库需要新的计算方法。

  • 速度:必须足够快,处理十亿尺度的药物库,如果 10s/core/mol,那么在单个 CPU 核心上筛选 1010 个化合物将需要超过 3,000 年,或者在计算云上,以最便宜的 CPU 价格,也要花费约 100 万美元。
  • 准确率:亿尺度的筛选必须非常准确,以防假阳性,打分函数具有一定的缺陷。使在 1010 个空间中出现一百万分之一的假阳性率,也将包括 10,000 个虚假的活性物质,可能会淹没活性物质。一些补救措施包括:(1)基于两个不同打分函数的共识进行选择,(2)选择高度多样化的活性物质,(3)从多个打分范围中进行选择和(4)手动筛选最终的化合物列表以排除异常的相互作用。得分灵敏度上进行一些权衡是可以接受的。

筛选蛋白质靶点寻找潜在配体的主要计算方法总结在表 2 中。在下文中,我们将讨论一些新兴技术以及它们如何最好地融入整体的 DDD 流程,以充分利用不断增长的按需化学空间。

基于受体结构的筛选

以合成子(synthon)为基础的新方法

从早期药物发现的年代起,从分子片段库中选取最优片段以填充受体结合口袋的想法就已经存在,例如在 LUDI 算法。然而,所设计出的化合物的定制合成仍然是这类方法的主要瓶颈。最近开发的虚拟合成子分层枚举筛选(V-SYNTHES)技术将基于片段的设计应用于 on-demond 化学空间,从而避免了定制合成的困难。

从 REAL Space 反应和 building block(合成子)开始,

  1. V-SYNTHES 首先制造一个最小库,这个库一侧被封闭(使用甲基或苯基),另外一侧开放。
  2. 然后,基于对接的筛选获取到得分最高的片段,对另外一个位置重复这个过程,每次迭代都对目标口袋进行筛选。
  3. 在最后一步,从 REAL Space 选出的前约 50,000 个完整化合物将进行更精细和准确的对接,然后对排名靠前的候选物进行新颖性、多样性和类药性质的筛选。
  4. 选择最佳的 50-500 个化合物进行合成和测试。

在 V-SYNTHES 算法中将合成子与支架结合,并使用虚拟最小团封顶是获得最佳片段的关键,因为 building block 和支架的反应性基团通常会创建非常强但错误的相互作用,这在完整分子中是不存在的。算法的另一个重要部分是在靶标中评估片段结合位姿,该评估优先考虑那些最小封顶指向口袋区域的 hits(因为该区域有空间进行生长)。

除了支持丰富性、化学多样性的优点外,基于结构的模块方法在识别化学新颖性的 hits 方面尤为有效,因为它们(1)不依赖于现有配体的信息,(2)存在非常多的之前从未合成过的配体。这是确保从十亿尺度筛选出 hits 和 leads 重要因素。

数据驱动的方法和 DL

在基于 AI 的人脸识别ChatGPT 和 AlphaFold 等技术的时代,数据驱动的深度学习方法在药物发现的各个阶段也存在着巨大的场景。

数据驱动方法在药物发现中有着悠久的历史,其中机器学习算法,如支持向量机、随机森林和神经网络,尽管效果参差不齐,但已被广泛用于预测配体性质和靶点活性。

药物发现的关键愿景是开发出通用性的 AI 模型。其中一个方向是从已知配体活性和蛋白质 - 配体 3D 结构数据中提取结合亲和力的通用模型,例如在 PDBbind 数据库中收集的数据或从对接中获得。然而,最近的一项研究发现,无论神经网络架构如何,PDBbind 复合物中非共价分子间相互作用的详细描述与仅包含配体或只包含受体省略相互作用的简单逼近相比,并未显示出任何统计优势。因此,基于 PDBbind 的深度学习模型的良好性能依赖于其记忆了相似的配体和受体,而不是捕捉通用结合信息。对于这种现象的一个可能解释是,PDBbind 数据库没有充分呈现 “负空间”,即具有次优相互作用模式的配体,以强化训练。

Hybrid computational approaches

正如前文所讨论的,基于物理和数据驱动的方法在预测配体效力方面都具有明显的优势和局限性。基于结构的对接预测天然适用于任何具有 3D 结构的靶点,并且可以更准确。相反,数据驱动方法可以在没有结构的情况下工作,尤其在使用 GPU 加速的情况下速度更快。

  • 在虚拟筛选方法中,将基于物理的对接与基于数据的打分函数协同使用可能会非常有效。如果基于物理的和基于数据的评分函数相对独立,并且两者都在所选库中生成了富集,它们的组合可以降低虚假阳性率并提高 hits 的质量。
  • 在更深层次上,准确的基于物理的对接结果(除了来自 PDBbind 等的实验数据)可以用于训练预测配体 - 受体亲和力的深度学习模型。这将有助于显着扩展训练数据集并平衡阳性和阴性(次优结合)case。
  • 为了扩展对接的适用范围,以适应那些缺乏高分辨率结构的靶点,使用 AI 衍生的 AlphaFold2 或 RosettaFold 输出的蛋白质 3D 模型也是一个不错的选择。

但是对于那些缺乏实验结构的靶点,尤其是对于在结合口袋中缺乏明显结构同源性的靶点类型,AlphaFold2 模型性能令人失望(针对 GPCR 和抗菌靶点的评估)。

未来挑战

进一步扩大可获取的化学空间

  • 可以探索更多的组分,目前最多应用的是 V-SYNTHES 的 2,3 组分,可以探索 4,5,6 组分空间,来拓展规模
  • 除了 “经典” 的偶联反应 click chemistry,2022 年诺贝尔化学奖,以及优化的 click-like 反应,其他的偶联反应也可以尝试。
  • 更为鲁棒的化学空间生成还可以依靠合成化学的新计算方法,例如逆合成路线分析。

展望

无论模型有多么准确,它们也远无法确保所有的预测都是正确的。实际上,最好的虚拟筛选通常会在实验验证中确认 10% 到 40% 的 hits,而在优化中使用的最佳亲和力预测准确性很少能达到比 1kcal mol-1 均方根误差。因此,计算预测始终需要在管道的每个阶段进行牢固的体外和体内验证。同时,体内体外的数据也可以返回给计算模型进行调优。‍

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugSci 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【CSAPP】BombLab
《CSAPP》是指计算机系统基础课程的经典教材《Computer Systems: A Programmer's Perspective》,由Randal E. Bryant和David R. O'Hallaron编写。该书的主要目标是帮助深入理解计算机系统的工作原理,包括硬件和软件的相互关系,其涵盖了计算机体系结构、汇编语言、操作系统、计算机网络等主题,旨在培养学生系统级编程和分析的能力。
SarPro
2024/02/20
3330
【CSAPP】BombLab
【CSAPP】探究BombLab奥秘:Phase_1的解密与实战
《CSAPP》是指计算机系统基础课程的经典教材《Computer Systems: A Programmer's Perspective》,由Randal E. Bryant和David R. O'Hallaron编写。该书的主要目标是帮助深入理解计算机系统的工作原理,包括硬件和软件的相互关系,其涵盖了计算机体系结构、汇编语言、操作系统、计算机网络等主题,旨在培养学生系统级编程和分析的能力。
SarPro
2024/02/20
1730
【CSAPP】探究BombLab奥秘:Phase_1的解密与实战
《深入理解计算机系统》(CSAPP)实验二 —— Bomb Lab
  本次实验中的bomb文件中共有7个炸弹问题(6个显式的和1个隐藏的),每条问题只有输入正确的答案才能进入下一题,否则则会触发爆炸。通过阅读bomb文件的汇编代码理解各个问题的运作方式,推出正确的输入答案。隐藏的问题需要通过gdb直接调用解决。
嵌入式与Linux那些事
2021/05/20
2.2K0
《深入理解计算机系统》(CSAPP)实验二 —— Bomb Lab
CSAPP-Bomb-Lab
实验是基于Linux x86-64的,其中bomb文件是一个64位的可执行程序,bomb.c文件是一个C语言程序,其中包含了main函数以及其他许多函数。该实验共包含**六个关卡(Phase_1-Phase_6)**,每一关需要我们正确的输入密码,才能不引爆炸弹,并进行下一关。
h1J4cker
2022/12/01
2K0
【CSAPP】探究BombLab奥秘:Secret_phase的解密与实战
《CSAPP》是指计算机系统基础课程的经典教材《Computer Systems: A Programmer's Perspective》,由Randal E. Bryant和David R. O'Hallaron编写。该书的主要目标是帮助深入理解计算机系统的工作原理,包括硬件和软件的相互关系,其涵盖了计算机体系结构、汇编语言、操作系统、计算机网络等主题,旨在培养学生系统级编程和分析的能力。
SarPro
2024/02/20
3980
【CSAPP】探究BombLab奥秘:Secret_phase的解密与实战
【CSAPP】探究BombLab奥秘:Phase_3的解密与实战
《CSAPP》是指计算机系统基础课程的经典教材《Computer Systems: A Programmer's Perspective》,由Randal E. Bryant和David R. O'Hallaron编写。该书的主要目标是帮助深入理解计算机系统的工作原理,包括硬件和软件的相互关系,其涵盖了计算机体系结构、汇编语言、操作系统、计算机网络等主题,旨在培养学生系统级编程和分析的能力。
SarPro
2024/02/20
2100
【CSAPP】探究BombLab奥秘:Phase_3的解密与实战
【CSAPP】探究BombLab奥秘:Phase_2的解密与实战
《CSAPP》是指计算机系统基础课程的经典教材《Computer Systems: A Programmer's Perspective》,由Randal E. Bryant和David R. O'Hallaron编写。该书的主要目标是帮助深入理解计算机系统的工作原理,包括硬件和软件的相互关系,其涵盖了计算机体系结构、汇编语言、操作系统、计算机网络等主题,旨在培养学生系统级编程和分析的能力。
SarPro
2024/02/20
1770
【CSAPP】探究BombLab奥秘:Phase_2的解密与实战
二进制炸弹实验binarybomb 拆弹
这个实验是系统级编程的课程实验,非常有意思,给定一个可执行文件bomb.exe,这个程序打开之后需要用户输入一些东西,只有输入指定的字符串或者数字才能到达下一个步骤,一共有7个步骤,如果输入错误,屏幕会显示boom!!并退出程序,意味着你引爆了这个炸弹。你需要反汇编这个可执行文件来找到拆弹的线索。老师给我们提供了两种方法:使用GDB+objdump来反汇编;使用IDA 来反汇编
vincentbbli
2021/08/18
2.2K0
【CSAPP】探究BombLab奥秘:Phase_4的解密与实战
《CSAPP》是指计算机系统基础课程的经典教材《Computer Systems: A Programmer's Perspective》,由Randal E. Bryant和David R. O'Hallaron编写。该书的主要目标是帮助深入理解计算机系统的工作原理,包括硬件和软件的相互关系,其涵盖了计算机体系结构、汇编语言、操作系统、计算机网络等主题,旨在培养学生系统级编程和分析的能力。
SarPro
2024/02/20
2490
【CSAPP】探究BombLab奥秘:Phase_4的解密与实战
汇编学习(2),数据表示与寄存器
本篇介绍下数据在计算机中的表示形式以及常用的寄存器, 最后再学一个稍微复杂点的代码。
一只小虾米
2022/12/02
4980
汇编学习(2),数据表示与寄存器
如何优雅的调试段错误
摘要:当程序运行出现段错误时,目标文件没有调试符号,也没配置产生 core dump,如何定位到出错的文件和函数,并尽可能提供更详细的一些信息,如参数,代码等。 第一板斧 准备一段测试代码 018.c #include <stdio.h> int main(int argc, char *argv[]) {    FILE *fp = NULL;    fprintf(fp, "%s\n", "hello");    fclose(fp);    return 0; } 编译运行 $ gcc 0
F-Stack
2020/05/18
5K0
《深入理解计算机系统》(CSAPP)实验四 —— Attack Lab
  在官网下载得到实验所需文件解压后会得到五个不同的文件。对六个文件简要说明如下所示。
嵌入式与Linux那些事
2021/05/20
1.3K0
《深入理解计算机系统》(CSAPP)实验四 —— Attack Lab
NX防护机制以及最基本shellcode
道理我们都懂,那么如果我们关闭了NX到底可以干什么呢,该如何利用呢?下面通过一个实验来说明。
FB客服
2023/02/10
1K0
NX防护机制以及最基本shellcode
【调试】GDB使用总结
在shell下敲gdb命令即可启动gdb,启动后会显示下述信息,出现gdb提示符。
嵌入式与Linux那些事
2023/02/13
1.7K0
【调试】GDB使用总结
gdb基础命令和常用操作补充
s1mba
2017/12/26
3.6K0
gdb基础命令和常用操作补充
【CSAPP】AttackLab
《CSAPP》是指计算机系统基础课程的经典教材《Computer Systems: A Programmer's Perspective》,由Randal E. Bryant和David R. O'Hallaron编写。该书的主要目标是帮助深入理解计算机系统的工作原理,包括硬件和软件的相互关系,其涵盖了计算机体系结构、汇编语言、操作系统、计算机网络等主题,旨在培养学生系统级编程和分析的能力。
SarPro
2024/02/20
3741
【CSAPP】AttackLab
​CS:APP Attack Lab: 缓冲区溢出攻击
CMU的15-213课程Introduction to Computer Systems (ICS)里面有一个实验叫attack lab,利用缓冲区溢出漏洞改变正常的程序运行行为,从而达到攻击的目的。关于这个lab的解题思路,网上已经有很多了,但我依然想要再来一篇。原因包括:
王录华
2020/02/25
2.8K0
二进制学习
C 语言的奇技淫巧 https://jin-yang.github.io/post/program-c-tips.html
wywwzjj
2023/05/09
1.1K0
二进制学习
C语言 | C++ 基础栈溢出及保护机制
如果你学的第一门程序语言是C语言,那么下面这段程序很可能是你写出来的第一个有完整的 “输入---处理---输出” 流程的程序:
小林C语言
2020/12/25
5.1K0
C语言 | C++ 基础栈溢出及保护机制
汇编寄存器的规则
在本章中,您将了解到 CPU 使用的寄存器,并研究和修改传入函数的参数。您还将了解常见的苹果计算机架构,以及如何在函数中使用它们的寄存器。这就是所谓的架构调用约定。
molier
2022/11/03
2.8K0
汇编寄存器的规则
推荐阅读
相关推荐
【CSAPP】BombLab
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档