DRUGAI
今天为大家介绍的是来自美国剑桥赛诺菲定量药理学研究负责人Panteleimon D. Mavroudis与Nikhil Pillai团队的一篇论文。这项研究主要关注药物动力学(pharmacokinetic, PK)特征的预测工作。传统预测方法需要通过体外或体内测试获取参数,这些方法不仅耗时耗力,还会涉及伦理问题。为克服这些限制,研究团队开发了基于机器学习(Machine Learning, ML)的数据驱动模型。研究人员从公开数据源收集了大量小分子的物理化学和药物动力学特性数据,并从文献中提取了约800种化合物的人体血浆浓度-时间曲线数据。他们提出了两种创新性的预测框架:一种是将机器学习与生理药代动力学模型相结合的混合框架,另一种是通过两个学习阶段来直接预测药物动力学特征的机器学习框架。在对106种药物的测试中,这些框架展现出优秀的预测性能。在药物血浆浓度-时间曲线下面积(AUC)和最高血药浓度(Cmax)这两个关键指标上,40-60%的化合物预测误差在2倍以内,80-90%的化合物预测误差在5倍以内。这些方法有望提升早期药物筛选和设计效率,推动药物研发能力的进步。
药物研发是一个复杂且耗时的过程,其中预测新药在人体内的暴露情况对评估药物的有效性和安全性至关重要。传统的预测方法主要依赖生理药代动力学(Physiological Based PK, PBPK)等数学模型,这些方法需要大量实验室测试和动物实验,不仅成本高昂,还面临效率和伦理问题。
图 1
为了解决这些挑战,研究团队开发了两种创新性的预测框架(如图1所示):一种是混合模型框架,它将机器学习与生理药代动力学模型相结合;另一种是分层机器学习框架。这两种框架都采用两步建模策略:第一步都是使用机器学习从化学结构预测药物的物理化学和药代动力学参数。在第二步中,混合框架将这些参数输入PBPK模型进行模拟,而分层框架则将这些预测参数输入另一个机器学习模型,直接预测药物在人体内的浓度变化曲线。为支持这项研究,团队建立了迄今为止最大的人体静脉注射药物数据库,收录了约800种药物的动力学曲线数据。这个庞大的数据库为开发准确的预测模型提供了坚实的基础,有望在药物早期研发阶段就能快速、准确地预测药物在人体内的表现,从而大幅提高新药研发的效率。
数据获取
图 2
研究团队首先通过数字化处理文献中的药物动力学曲线,获得了773种静脉注射药物的数据(如图2所示)。为确保评估的客观性,他们将106种具有完整观测数据的化合物作为测试集,其余667种作为训练集。根据表1显示,训练集包含667种化合物在不同时间点的8715个浓度值,测试集则包含106种化合物的1351个浓度值。研究发现药物动力学参数的原始分布较为不均匀,特别是清除率(CL)和稳态分布容积(VDss)。为了优化模型效果,研究人员将这些值转换为以10为底的对数值。如图3A-E所示,测试集中所有物理化学和药物动力学参数的分布都落在训练集的范围内,这保证了模型预测的可靠性。
图 3
在参数选择方面,研究团队使用了计算机模拟获得的酸碱解离常数(pKa)和辛醇-水分配系数(logP)值,而不是实验测定值。这是因为在773种药物中,仅有29种具有实验测定的pKa值,83种具有实验测定的logP值,数据覆盖率过低。相比之下,ChEMBL数据库中约570种化合物与这些药物重叠,提供了更全面的计算值数据。研究还发现,计算值与实验值具有良好的相关性,且使用实验测定的logP值并未显著改善预测效果。这种选择不仅提高了数据的可用性,也为未来整合更多实验数据预留了优化空间。
构建QSAR模型预测PC/PK参数
图 4
研究团队开发了定量构效关系(Quantitative Structure-Activity Relationship, QSAR)模型来预测药物的各项参数。他们使用3种机器学习算法和5种分子特征描述方法,共构建了15个独立模型,并通过组合这些模型的预测结果建立了集成模型。图4的热图展示了所有模型在测试集上的预测准确度(R²值)。
表 2
图 5
如表2和图5所示,不同参数的最佳预测模型各不相同:
研究发现,使用分子结构描述符(如RDKit、Mordred等)训练的模型普遍优于使用分子指纹特征的模型。集成模型通过整合多个单一模型的优势,能够提供更稳定和准确的预测。由于酸碱性参数涉及的机制相对简单,其预测准确度较高。而游离分数、清除率和分布容积的预测则更具挑战性,因为这些参数受到蛋白质相互作用、生物过程和个体差异等多重因素的影响。尽管如此,这些模型的预测误差平均在2倍以内,达到了业界公认的标准,且优于已发表的同类研究成果。
混合建模研究
研究团队使用生理药代动力学软件PK-Sim开展了混合建模研究。在这个框架中,他们将机器学习预测的药物参数输入到生理药代动力学(PBPK)模型进行模拟。为了评估效果,研究人员还进行了对照实验:使用实验观测到的参数进行PBPK模拟。
图 6
如图6A所示,在预测药物血浆浓度-时间曲线下面积(AUC)和最高血药浓度(Cmax)时,对照组在2倍误差范围内的准确率更高。但在3倍和5倍误差范围内,混合方法的表现与对照组相当或更优。
图 7
图7展示了几个典型案例:
研究还比较了不同药物分布模型的效果。有些药物(如ID 31和72)在各种模型中预测结果相近,而其他药物(如ID 315和461)则因模型选择而差异显著。这是因为不同模型考虑的因素不同,例如有些模型会特别考虑药物的酸碱性与人体pH值的相互作用。考虑到新药机制往往不明确,难以预先确定最适合的分布模型,研究团队采用了多个模型预测结果的平均值。这种平均策略的效果优于单一模型:43%的AUC和39%的Cmax预测误差在2倍以内,80%的AUC和82%的Cmax预测误差在5倍以内。
分层ML建模研究
研究团队使用667种化合物的数据开发了分层机器学习模型,用于预测药物在不同时间点的浓度。最佳表现来自随机森林(Random Forest, RF)算法,该算法综合考虑了药物的酸碱解离常数、游离分数、清除率、分布容积和给药时间等特征。在106种测试化合物中,55%的浓度预测误差控制在2倍范围内。
图 8
如图8所示,这种方法在预测药物暴露水平方面表现出色:60%的血药浓度曲线下面积(AUC)和59%的最高血药浓度(Cmax)预测误差在2倍以内,超过90%的预测误差在5倍以内。特别是对于某些复杂案例,如图9中的化合物ID 219和315,分层方法的预测比传统方法更准确。这可能是因为分层方法能够从大量真实数据中学习复杂的药物-人体相互作用模式,而不受预设机制的限制。
图 9
研究还尝试通过定义模型的适用范围来提高预测准确度,即根据待测化合物与训练集化合物的结构相似度来判断预测的可靠性。但这种方法未能显著改善预测效果,这反映出药物结构与其在体内行为之间的关系十分复杂。当前框架的主要局限在于将每个时间点的浓度预测作为独立任务处理,忽略了浓度随时间变化的连续性。这可能导致预测结果出现不连贯的情况,例如在化合物ID 789、1167和1210的案例中,某些时间点的预测浓度低于后续时间点,这与药物在体内的实际表现不符。这种问题可能源于数据处理误差,也可能反映了模型在捕捉时间序列特征方面的不足。
使用最近批准的药物进行外部验证
图 10
为了进一步验证模型的实用性,研究团队选择了7种FDA在2019-2023年间新批准的药物进行测试。如图10所示,分层机器学习模型展现出优秀的预测能力:所有药物的血药浓度曲线下面积(AUC)和最高血药浓度(Cmax)预测误差都控制在4倍以内,其中4种药物的误差更是在2倍范围内。相比之下,混合方法的表现较差,特别是在预测Abrocitinib和Gadopiclenol时。例如,模型低估了Abrocitinib的清除率(实测:0.722,预测:0.240 L/h/kg),导致预测的药物浓度偏高。这种误差可能源于基础PBPK模型未考虑主动转运体和其他代谢信息。
在研究规模和数据质量方面,本研究建立了约800种化合物的人体药物动力学数据库,这是目前同类研究中最大的数据集之一。与其他研究相比,如Geci等人的工作(在5倍误差范围内达到71%的AUC和78%的Cmax预测准确率),本研究的混合建模框架展示了相当的性能。在方法选择上,研究采用了传统的机器学习算法而非复杂的深度学习模型。这是因为临床研究中的药物浓度数据通常采样时间不规则,而循环神经网络(Recurrent Neural Network, RNN)等深度学习模型往往需要均匀采样的数据。虽然神经常微分方程(Neural Ordinary Differential Equation, Neural-ODE)可以处理不规则数据,但这类深度学习方法计算复杂,且在小样本情况下容易过拟合。
结论
研究团队开发了两种药物动力学预测框架:一种结合机器学习和机制建模的混合框架,另一种直接从分子结构预测药物浓度的分层机器学习框架。在大量公开数据的支持下,两种方法都展现出良好的预测能力,其中分层方法表现更优。本研究利用大量公开的人体药物动力学研究数据,为药物开发提供了新的预测工具。这些模型为未来研究奠定了基础,通过引入更先进的机器学习算法,如科学机器学习方法,可以整合多源信息并从真实世界数据中识别系统特征,有望进一步提高预测准确度。研究的最终目标是帮助制药企业在药物开发早期就能预测候选化合物的药物动力学特征,从而更高效地筛选和优化潜在药物,加速新药研发进程。
编译|于洲
审稿|王梓旭
参考资料
Jia X, Teutonico D, Dhakal S, et al. Application of Machine Learning and Mechanistic Modeling to Predict Intravenous Pharmacokinetic Profiles in Humans[J]. Journal of Medicinal Chemistry, 2025.
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有