
基于多靶点作用机制的药物发现依赖于具有多靶点活性的化合物,这类化合物可通过筛选实验、靶点谱分析实验或计算方法获得。深度生成模型推动了当代多靶点化合物的设计。双靶点化合物(DT-CPD)已知具有大量不同的靶点组合,为机器学习提供了坚实的数据基础。相比之下,可用的三靶点化合物(TT-CPD)数量相对较少,且覆盖的靶点空间非常有限。
针对上述局限性,波恩大学的Sanjana Srinivasan与Jürgen Bajorath于2026年1月9日在《Cell Reports Physical Science》上发表研究型论文,题为“Chemical language models for generating compounds with triple-target activity”。

作者探讨了如何克服这一数据限制,以实现新型三靶点化合物的生成式设计。为此,首先对一个Transformer模型进行预训练,使其能够从相应的单靶点化合物生成双靶点化合物,并将该模型作为三靶点微调的基础模型。针对不同的靶点组合,所得模型能够正确再现微调过程中未出现过的已知三靶点化合物。特征重要性分析对预测结果进行了说明,并揭示了与靶点选择性或三靶点活性相关的结构基序,从而为该方法提供了具有化学直觉的理论依据。
数据及代码仓库:
https://doi.org/10.5281/zenodo.17801433
背景
多靶点化合物的计算机辅助设计逐渐成为一个极具吸引力的研究方向。在药物化学和药物设计的实际工作中,由于计算复杂性和数据可得性的限制,相关研究通常局限于针对两个靶蛋白具有活性的化合物。针对这类双靶点化合物(DT-CPD)的设计,已经发展出多种基于知识的策略,包括药效团融合、序贯药效团筛选、基于已知DT-CPD的虚拟筛选、化合物对一系列靶点结构的分子对接,以及系统性的药物–靶点相互作用建模等。尽管从药物化学的角度来看,基于药效团的方法具有直观优势,但机器学习(ML)在DT-CPD设计中的应用正日益广泛。此外,深度学习,尤其是语言模型和生成式设计的应用,为该领域提供了新的可能性。近年来已有少量研究利用生成模型预测DT-CPD。在这些研究中,部分DT-CPD候选分子得到了实验验证,并确认了其活性。
尽管上述研究为通过生成式建模设计DT-CPD提供了概念验证,但代表更高复杂度的三靶点化合物(TT-CPD)的设计迄今尚未得到尝试。这主要源于数据方面的限制。化学语言模型(CLM)通常需要在大量DT-CPD及其对应的ST-CPD上进行预训练,随后再针对感兴趣的靶点组合进行微调。虽然针对数百种靶点对已积累了已知的DT-CPD,从而使CLM的预训练成为可能,但已知的TT-CPD却极为稀少,且多局限于高度相关靶点的组合,这在本质上阻碍了利用TT-CPD及其对应ST-CPD对CLM进行预训练。
数据及方法
首先,在ChEMBL数据库中系统性地搜索了TT-CPD。共获得493组至少包含50个TT-CPD的靶点三联体,涉及146个不同靶点和11195个唯一的TT-CPD。在这493组靶点三联体中,仅有15组包含来自不同蛋白家族的靶点。用于后续分析时,从PI3K家族和JAK家族中选择了两组由相关蛋白激酶靶点构成的三联体,这两组靶点三联体分别拥有最多的已知TT-CPD,数量为656个和453个(表1)。对于每一组靶点三联体,相应的单靶点化合物(ST-CPD)被整理为四个集合,包括针对每一个单独靶点的子集,以及所有ST-CPD的并集(“all”)。
表1 选定的靶点三联体及其可用化合物

设计策略如下:将ST-/DT-CPD的预训练与ST-/TT-CPD的微调相结合,使用预训练的DT-CPD Transformer作为基础模型,并引入PI3K和JAK的ST-/TT-CPD数据集进行微调。模型架构如图1所示。

图1 模型架构图
结果
区分三靶点化合物与相应的单靶点化合物
作者利用化合物结构表示构建了平衡随机森林(BRF)分类模型,以区分ST-CPD与TT-CPD。如图2所示,针对PI3K和JAK三联体的所有模型变体在测试集上的准确率均超过80%,且MCC始终保持在约0.65–0.90的较高水平。这些结果证实了ST-CPD与TT-CPD之间确实存在可区分的结构特征,并表明数据稀疏性并未对结果产生显著影响。值得注意的是,将所有ST-CPD合并后与TT-CPD进行比较的BRF模型通常表现出略低的分类准确率(尤其是在PI3K数据集中),这提示与单个靶点相关的ST-CPD可能包含各自独特的结构特征。

图2 BRF模型性能
用于TT-CPD设计的微调
使用原始预训练的DT-CPD Transformer以及对照模型对ST-/TT-CPD配对数据进行微调,并随后采样候选TT-CPD。如图3所示,基于原始预训练Transformer的微调模型(TT-original)在测试集上实现的TT-CPD最大再现率分别超过20%(PI3K)和40%(JAK)。对照模型(TT-control)的TT-CPD再现率显著降低,这是因为其预训练阶段未包含TT-CPD,从而避免了化合物记忆效应。尽管如此,对照模型在微调后仍分别达到了超过10%(PI3K)和20%(JAK)的最大测试TT-CPD再现率。此外,原始模型(ST)在预训练阶段数据中(包括记忆效应)再现ST-CPD的比例非常低,PI3K接近0%,JAK约为5%。

图3 微调模型的再现百分比
基于Mann–Whitney U检验并结合Bonferroni多重检验校正,所有观察到的TT-CPD再现率差异,以及TT-CPD与ST-CPD之间的再现率差异,均具有统计学显著性。表2总结了在五次独立微调实验中,所采样的候选化合物及成功再现的测试集化合物的平均数量。
表2 采样得到并成功再现的化合物

综合上述结果,可以确认将DT-CPD预训练与TT-CPD微调相结合的Transformer化学语言模型,能够在微调过程中学习ST-/TT-CPD映射关系及TT-CPD的化学空间,有效采样候选化合物,并正确再现模型构建过程中未出现过的测试集TT-CPD,从而为该方法提供了概念验证。
针对两个靶点三联体所采样的候选化合物,计算了SA评分并与已知TT-CPD进行了比较。SA评分范围为1-10,数值越大表示合成可行性越低。两者的SA分布非常相似,其中位数分别为2.99(已知TT-CPD)和2.96(CLM采样化合物)。此外,还计算并比较了QED评分,其取值范围为0-1,数值越大表示药物相似性越高。两者的QED分布同样高度一致,中位数均为0.58。因此,在合成可及性和药物相似性方面,CLM生成的候选化合物与已知TT-CPD表现出高度相似性。
特征分析
鉴于模型成功再现了训练过程中未出现过的测试集TT-CPD,随后对CLM在生成候选化合物过程中所学习到的结构特征进行了系统分析。具体包含两步,首先是识别能够区分TT-CPD与其对应ST-CPD的结构特征;其次,需要确定这些区分性结构特征是否存在于Transformer生成的CLM-CPD中。
在第一步中,作者对所有被分类模型正确预测的测试集ST-CPD与TT-CPD进行了全局SHAP分析。具体而言,通过分别对测试化合物中存在或不存在的特征的单个SHAP值进行求和,计算累积SHAP值,从而能够识别在整个测试集中主导预测结果的关键特征。如图4所示,存在于TT-CPD与ST-CPD中的特征通常对其正确预测作出幅度相当的贡献(分别对应正值和负值)。相比之下,TT-CPD与ST-CPD中缺失的特征所作出的贡献幅度通常较小,仅在少数情况下略有偏离(接近于零)。对于使用所有ST-CPD并集构建的分类模型而言,正确预测主要由存在于TT-CPD中的特征所驱动。综合来看,这些结果证实了在两个靶点三联体中,TT-CPD以及各单一靶点对应的ST-CPD均具有各自特征性的结构特征。

图4 累积SHAP值结果
在特征分析的第二步中,作者考察了在Transformer生成的CLM-CPD中,是否存在对ST-CPD与TT-CPD正确预测最为重要的前25个特征。图5展示了这些关键ST-CPD特征在不同化合物集合中的出现情况,包括各类ST-CPD、所有TT-CPD、所有唯一的CLM-CPD以及100个随机选取的ChEMBL化合物。图6则展示了TT-CPD的前25个关键特征在所有化合物类别中的对应分布。在这种情况下,TT-CPD与CLM-CPD中的特征含量始终保持在相近且较高的水平,表明Transformer CLM学习到了区分TT-CPD与ST-CPD的结构特征,并在采样得到的候选化合物中成功整合了大量TT-CPD的特征性结构,这与模型设计目标高度一致。

图5 单靶点化合物特征的出现情况

图6 三靶点化合物特征的出现情况
为直观展示决定预测结果的结构特征,采用基于原子的映射方法,将SHAP特征重要性值投射到化合物结构上,并利用连续颜色梯度进行可视化。如图7和图8所示,关键特征通常勾勒出测试化合物中连贯的子结构区域,这些区域驱动了正确预测。总的来说,在ST-CPD预测中起关键作用的重复子结构主要体现为靶点特异性的决定因素,而在TT-CPD与CLM-CPD中识别出的其他重复子结构则直接与三靶点活性相关。

图7 单靶点化合物特征的映射

图8 三靶点化合物特征的映射
总结
本文提出将双靶点预训练与三靶点微调相结合的策略,基于以下推断:经过大规模预训练的DT-CPD CLM可能已经学习到与额外靶点活性相关的充分结构–活性关系,从而使基于ST-/TT-CPD映射的微调成为可能。在本项概念验证研究中,作者选择了两个蛋白激酶靶点三联体进行分析,这些三联体具有足够数量的TT-CPD,可用于模型微调与评估。借助辅助分类模型与特征归因分析,提供了明确证据,表明TT-CPD与其对应的ST-CPD在结构上是可区分的,且活性注释并未受到数据不完整性的显著影响。随后,以不同DT-CPD CLM变体作为基础模型,证明了经微调的CLM能够正确再现训练过程中未出现过的已知TT-CPD。特征映射结果揭示了ST-CPD和TT-CPD中分别与化合物特异性和多靶点活性相关的特征性子结构。此外,对特征分布的系统分析以及特征性子结构的识别明确表明,微调后的Transformer CLM学习了TT-CPD的化学空间,且大量候选化合物包含已知TT-CPD的结构特征,这一点也得到了对CLM-CPD进行分类分析的进一步支持。因此,尽管本研究仅以蛋白激酶三联体为例,当其他靶点三联体积累了足够数量的TT-CPD后,对预训练模型进行相应微调在总体上是可行的。
近年来,化学和生物学领域的一个重要趋势是利用大语言模型构建科学AI智能体系统。AI智能体系统在规划和执行一系列科学任务时可以表现出越来越高的自主性,仅需极少的人为干预,并有望代表自然科学领域下一代AI模型的发展方向。然而,对AI智能体的关注增强并不意味着任务特异性模型将被淘汰。相反,当前和未来用于生成式分子设计的Transformer CLM可以被整合进AI智能体系统中,或作为外部功能模块加以调用。
参考链接:
https://doi.org/10.1016/j.xcrp.2025.103054