在药物研发的漫长征程中,从苗头化合物(Hit)到先导化合物(Lead),再到开发候选化合物(Development Candidate, DC)的优化过程,犹如一场分子层面的“进化之旅”。近日,《Journal of Medicinal Chemistry》发表的一项研究,为这场“进化”提供了全新的分析框架——逆向优化分析(Retro-optimization Analysis)。本文将深入解析该研究的核心方法,揭示如何通过分子网络与优化子解码,让药物优化逻辑从模糊走向清晰。
一、研究方法:从分子网络到优化子的解码工具
1. 逆向优化分析:从DC回溯优化轨迹的“分子考古学”
传统药物优化聚焦于从Hit到DC的正向推进,而该研究提出逆向思维:从高度优化的DC出发,逆向拆解为能力较弱的Lead和Hit,如同从“现代物种”回溯“进化祖先”。其核心逻辑类似于有机合成中的逆合成分析——将DC视为“目标分子”,通过拆解关键子结构(即“优化子”),还原优化过程中的每一步“分子进化事件”。
案例:在SHP2抑制剂的优化中,DC(batoprotafib)可逆向拆解为先导化合物SHP099和苗头化合物SHP836,通过对比三者的结构差异,明确活性与成药性提升的关键修饰位点。
优化的逻辑。正向箭头代表从 Hit 到 DC 的优化过程,分子能力不断增强。反向的开放箭头则代表本文提出的“逆向优化分析”,通过“优化子”(黄色高亮部分)来解构和理解优化路径。
优化的逻辑。正向箭头代表从 Hit 到 DC 的优化过程,分子能力不断增强。反向的开放箭头则代表本文提出的“逆向优化分析”,通过“优化子”(黄色高亮部分)来解构和理解优化路径。
2. 匹配分子对网络(MMP Network):绘制优化路径的“动态地图”
▶ 构建方法
- • 数据筛选:以CSF1R项目为例,纳入从Hit到DC的1681个化合物,基于结构相似性(Tanimoto系数≥0.40)构建网络。
- • 时间维度整合:按化合物首次测定时间排序,确保网络反映真实优化时序。
- • 算法实现:使用Cytoscape软件,通过Pathlinker算法计算任意两分子间的最短路径,识别实际优化路径与理论最短路径。
▶ 核心发现
- • 实际路径 vs. 理论路径:CSF1R项目中,实际优化从Hit到DC需10步匹配分子对(MMP),而理论最短路径(如路径A)仅需5步,提示优化效率存在提升空间。
- • 网络枢纽识别:实际Lead(AL)与理论Lead(TL)均为网络枢纽,但TL的介数中心性(BC)、邻域连通性(NC)更高,意味着其在网络中连接更多关键节点。
CSF1R 项目的分子相似性网络。每个点是一个化合物,通过 MMPs 连接。图中标记了 Hit、实际先导化合物(AL)、理论先导化合物(TL)和开发候选物(DC)的位置。
CSF1R 项目的分子相似性网络。每个点是一个化合物,通过 MMPs 连接。图中标记了 Hit、实际先导化合物(AL)、理论先导化合物(TL)和开发候选物(DC)的位置。
3. 理论先导化合物(TL):基于网络参数的“最优中间节点”筛选
▶ 筛选标准
- • 网络参数优先:TL需具备高BC(衡量节点在网络最短路径中的桥梁作用)、高NC(衡量节点与邻域的连接紧密性)和低平均最短路径长度(ASPL,衡量网络信息传递效率)。
- • 时间维度:TL的测定时间应早于AL,且分子回转半径(衡量空间紧凑性)更接近DC。
▶ 关键对比(以CSF1R项目为例)
AL 与 TL 的属性对比。
4. 优化子(Optimizon):分子修饰的“功能模块”解析
▶ 定义与分类
- • 优化子:优化过程中被选择性修饰的子结构,按位置分为外围(如CSF1R项目中的O1、O3)和核心(O2)优化子。
- • 优化签名(Optimization Signature):用二进制编码表示修饰模式(如1-1-1表示O1、O2、O3均被修饰),发现外围修饰(如1-1-1、1-0-1)对活性影响最大。
▶ 自动化识别流程
- 1. 片段枚举:从Hit到DC拆解所有可能的非末端键,生成子结构片段。
- 2. scaffold树构建:合并片段并去重,生成基于Hit的scaffold树。
- 3. 子结构映射:将片段作为查询,匹配整个数据集的结构,计算各优化子出现频率。
- 4. 签名分析:通过Pipeline Pilot协议自动生成优化签名,关联活性数据(如pIC₅₀、LLE)。
5. 多维度参数整合:从分子到网络的交叉验证
▶ 核心参数
- • 分子层面:计算脂溶性效率(LLE)、sp³碳分数(Fsp³)、合成可及性分数(SAscore)、分子复杂度(MC)等。
- • 网络层面:分析介数中心性(BC)、邻域连通性(NC)、边数(EC)、平均最短路径长度(ASPL)。
- • 动态层面:按测定时间绘制参数变化曲线,如CSF1R项目中LLE先升后降,Fsp³与MC持续增加。
▶ 跨项目验证方法
- • 内部项目:分析4个赛诺菲项目(包括CSF1R),对比TL与AL的网络参数及优化轨迹。
- • 外部数据集:整合Hopkins(分子对)、Brown(Hit-DC对)、Perola(Lead-药物对)公开数据,验证LLE、MC等趋势的普适性。
二、方法应用:以CSF1R项目为例的全流程解析
1. 网络构建与路径分析
- • 通过Pipeline Pilot生成MMP网络,发现从Hit(化合物4)到DC(化合物14)的实际路径需10步MMP,而理论路径A经化合物6、12直达DC,仅需5步,缩短50%优化步数。
2. 优化子轨迹追踪
- • 外围优先策略:CSF1R项目中,外围优化子O1、O3的修饰频率早期显著高于核心O2,呈现“从外围到核心”的“outside-in”优化轨迹。
- • 发现时序:DC中的外围优化子结构(O1f、O3f)在优化早期即被发现,而核心优化子结构(O2f)直至后期才确定,印证外围修饰的高效性。
实际路径(黑色,10步)与更短的理论路径A(绿色,5步)的对比。显然,存在一条更为直接的优化“高速公路”
实际路径(黑色,10步)与更短的理论路径A(绿色,5步)的对比。显然,存在一条更为直接的优化“高速公路”
三、方法创新:突破传统优化的三大局限
1. 从“经验驱动”到“数据驱动”
传统优化依赖直觉选择Lead,而该方法通过网络参数(如BC、NC)量化评估中间节点的优化潜力,例如CSF1R项目中TL(化合物6)的网络连接性优于AL,提示其可能是更优的中间节点。
2. 从“单参数优化”到“多维度整合”
整合活性(pIC₅₀)、成药性(LLE、SAscore)、网络特性(BC、EC)等参数,例如TL虽活性略低,但因网络连接性强,可作为“分子枢纽”加速优化。
3. 从“线性思维”到“网络思维”
将优化视为动态网络演化,而非单一路径推进。例如,通过MMP网络发现多条理论路径,其中最短路径与实际路径的差异,揭示优化过程中可能存在的“效率瓶颈”。
四、工具与资源:方法落地的技术支撑
- • 自动化协议:研究团队开源Pipeline Pilot协议,可自动生成优化子、计算分子描述符(如SAscore、Fsp³)及构建网络(见Supporting Information)。
- • 软件工具:使用Cytoscape进行网络分析,MOE计算分子回转半径,Omega生成构象集合。
- • 数据整合:通过Certara D360平台集成化合物结构与生物活性数据,确保时序分析的准确性。
五、结语:当“分子网络”遇见“逆向思维”
这项研究通过系统性方法创新,将药物优化从“艺术”推向“科学”——从DC逆向解构优化逻辑,用网络参数量化分子进化路径,以优化子解析修饰策略。这些方法不仅适用于药物研发,还可拓展至催化剂、功能材料等领域的优化场景。未来,随着AI与分子网络分析的深度融合,或许能真正实现“精准优化”:让每一步分子修饰都沿着理论最短路径,直达理想的开发候选化合物。
参考文献:Kombo D C, LaMarche M J. The Logic of Chemical Optimization[J]. Journal of Medicinal Chemistry, 2025, 68(24): 11572-11585.