DRUGAI
今天为大家介绍的是来自宾夕法尼亚州立大学Costas D. Maranas团队的一篇论文。酶活性的测定仍然主要依赖于实验方法,这些方法通常既耗时又昂贵。作者提出了CatPred,这是一个用于预测体外酶动力学参数的深度学习框架,包括周转数(kcat)、米氏常数(Km)和抑制常数(Ki)。CatPred解决了几个关键挑战,如缺乏标准化数据集、在与训练时使用的酶序列不相似的酶序列上评估性能,以及模型不确定性量化。作者探索了多种学习架构和特征表示方法,包括预训练的蛋白质语言模型和三维结构特征,以实现稳健的预测。CatPred提供准确的预测结果并附带特定查询的不确定性估计,其中预测方差较低与预测准确度较高相关。预训练的蛋白质语言模型特征特别增强了对分布外样本的性能表现。CatPred还引入了覆盖范围广泛的基准数据集(kcat约23,000个、Km约41,000个和Ki约12,000个数据点)。作者的框架与现有方法相比表现具有竞争力,同时提供可靠的不确定性量化。
近期的人工智能(AI)算法正成为未知蛋白质功能自动分配的有前途工具。这些模型为高质量自动功能注释测序基因组提供了希望。最近开发的方法如CLEAN、DeepECtransformer和ProteInfer通过利用预训练蛋白质语言模型(pLM)和深度学习算法,实现了精确的酶委员会(EC)编号重现。
然而,酶活性的量化仍然主要依赖于昂贵且耗时的生化测定。这些方法无法跟上序列发现的速度,导致大多数计算识别的酶在动力学方面仍未被表征,尽管高通量筛选能力有所进展。因此,能够对酶动力学进行定量注释的预测模型可能会像近期的折叠预测算法对结构预测一样,为酶表征提供支持。即使是对特定底物上酶动力学的近似估计,对于从蛋白质工程中定向进化的起始酶选择、生物合成或生物降解途径预筛选,或代谢动力学模型参数化的初始化等多种任务都非常重要。进行定向进化的起始酶的选择过程可以基于计算得出的酶动力学估计进行参考。全新酶动力学参数预测也可以为旨在设计完整逆向生物合成路径的途径组装算法提供信息。动力学参数预测可用于避免酶周转率低或表现出强产物抑制的酶的替代方案,加速发现更高催化效率的途径。
米氏常数和催化周转数是米氏-门顿动力学的关键参数,这是定量评估酶功能的普遍接受的模型。周转数(kcat)是酶的速度,表示每个活性位点在单位时间内将底物分子转化为产物的最大数量。米氏常数(Km)等同于酶以其最大催化速率一半运作时的底物浓度,定性描述了酶-底物对之间的结合亲和力。由于酶已进化以满足各种细胞功能,它们催化多样的化学转化,因此以广泛的kcat和Km值范围运作。在竞争性或非竞争性抑制剂存在的情况下,可以使用抑制常数(Ki)获得Km的等效值。诸如BRENDA和SABIO-RK等数据库包含了从原始研究文献中手动整理的数十万体外动力学测量值。
现有研究通过使用BRENDA、SABIO-RK、UniProt或这些数据库的组合,从已知的动力学参数测量值中整理训练数据集,用于机器学习体外kcat和Km值。然而,数据库中的所有条目缺乏完整注释,导致可学习数据量存在显著缺口。例如,尽管BRENDA(2022_2版本)中存在约87,000个kcat、176,000个Km和46,000个Ki测量值条目,但许多条目没有相应的酶序列和/或底物信息注释。
由于这个原因,现有研究使用的训练数据集根据如何处理缺失信息的条目而有很大差异。这促使大多数研究使用小型、过滤后的可用数据子集来减轻这种影响。许多研究还设置了任意排除标准,目的是减少噪音测量的影响。虽然这种过滤可能部分减少噪音影响,但也可能导致信息损失、偏差和对训练数据集的过度拟合,特别是当使用高维深度学习架构时。被过滤掉的条目通常对应于不常见的代谢物条目。由于它们占可用数据条目的很大比例(即高达约40-70%),忽略它们可能会导致机器学习算法错失学习罕见数据的机会。这促使我们需要系统的数据整理管道和扩展酶和底物范围的标准化训练数据集。
CatPred-DB:体外酶动力学参数机器学习的基准数据集
CatPred-DB由一组用于训练机器学习模型的综合基准数据集组成,分别针对野生型酶的体外kcat、Km和Ki测量值。作者从2022_2版BRENDA和截至2023年11月的SABIO-RK数据库中整理了这些数据集(图1a)。
图 1
最初,作者解析这些数据库以识别包含基本信息的条目,包括至少一个动力学参数值(kcat、Km或Ki)、酶类型(EC编号)、酶来源的生物体,以及反应物和产物的名称。为了维持生物体名称的准确性,作者只保留了在NCBI分类数据库中列出的条目。然后,作者使用UniProt数据库将每个条目映射到酶的氨基酸序列标识符。作者排除了缺少一项或多项这些注释或任何注释不完整的条目。最后,每个底物名称都用于获取对应于2D原子连接的规范SMILES字符串。对于kcat条目,所有列出的反应物都用于获取连接的规范SMILES字符串。
如果任何参数对应于某个酶-序列和底物-SMILES对存在多个测量值,则分别保留最大值(对于kcat)和几何平均值(对于Km和Ki)。选择kcat的最大值是因为它可能对应于最佳生长条件(即温度、pH等)。相比之下,Km和Ki值更直接地与酶-底物/抑制剂亲和力相关,而非实验条件。几何平均值的使用意味着对训练过程中使用的对数转换值进行算术平均。为酶参数选择单一值(对于给定的序列和底物-SMILES对)是必要的,以防止机器学习方法尝试为相同的输入学习显著不同的输出,这可能导致训练过程中的不稳定。
表 1
CatPred-DB包含23,197个kcat、41,174个Km和11,929个Ki测量值,涵盖了数千种独特的酶、生物体和底物(表1)。CatPred-DB中的每个条目还使用AlphaFold2.0数据库映射到相应酶的预测3D结构。在AlphaFold数据库中没有3D结构的情况下,作者使用ESMFold进行结构预测。表1总结了CatPred-DB与其他研究成果相比的覆盖率统计。值得注意的是,与现有的kcat和Km机器学习数据集相比,CatPred-DB显著扩展了酶序列空间(引入了高达60%的序列)。作者发现引入的序列广泛分布在各酶类中,对特定EC类没有偏好(图1b)。此外,CatPred-DB中的kcat和Km条目在EC一级分类的所有酶家族中与现有机器学习数据集相比具有更广泛的覆盖率(图1c)。因此,作者设想这种增强的序列和EC分类覆盖率将使CatPred-DB成为社区的有用资源,有助于系统开发和对酶动力学参数预测的机器学习模型进行基准测试。
CatPred模型架构
CatPred依靠酶序列/3D结构以及相应底物(反应物)的SMILES字符串作为输入,输出机器学习预测的体外动力学参数。对于kcat预测,作者使用了所有反应物分子的连接SMILES字符串。对于Km或Ki预测,则使用与相关底物对应的SMILES字符串。在训练过程中,这两组输入通过单独的特征学习模块转换到各自的特征空间(图2a, b)。对于酶特征学习,CatPred利用三种方法,逐步增加描述的细节:(1)序列注意力(Seq-Att);(2)蛋白质语言模型(pLM)特征;以及(3)3D结构特征(图2a)。这样做是为了正确描述更复杂编码对改进预测的贡献。对于底物特征学习,CatPred利用广泛基准测试的有向消息传递神经网络(D-MPNN)。D-MPNN将SMILES字符串转换为具有键连接的原子2D图,并使用图卷积操作学习它们的聚合表示(图2b)。
图 2
对于序列注意力(Seq-Attn)特征的推导,酶的氨基酸序列使用类似于训练ESM-2 pLM的编码层的旋转位置嵌入进行数字表示编码。然后使用自注意力层转换编码的数字表示,以捕获酶序列长度上的依赖关系和关联(图2a)。pLM特征是通过使用在Uniref50数据集上预训练的650 M参数的ESM-2(进化尺度建模)模型提取的。3D结构特征使用作用于氨基酸残基图的等变图神经网络(E-GNN)提取。作者整合了Greener等人的E-GNN,该网络已通过监督对比学习预训练,将蛋白质结构嵌入到低维潜在空间(图2a)。预训练的E-GNN的潜在空间将相似蛋白质结构的嵌入聚集在一起,同时将不相似的结构分开。作者认为在CatPred中使用这些E-GNN衍生的嵌入作为特征可以补充序列注意力和pLM特征。
通过这些模块(Seq-Attn、pLM、E-GNN)学习的酶特征与D-MPNN的底物特征连接起来,用于预测相应的目标(log10转换的动力学参数)。CatPred使用概率回归方法,因此提供的动力学参数预测是以均值和方差为特征的分布,而不是单值预测。具体来说,连接的酶和底物特征被输入到全连接神经网络中,该网络为每个输入输出均值和方差(图2c)。网络使用负对数似然(NLL)损失函数在CatPred-DB的数据集上进行训练。对于每个输入,输出均值是模型预测,而输出方差对应于预测的相应随机不确定性。为了考虑预测的认知不确定性,作者使用不同的随机初始权重训练了10个相同的模型副本(统称为集成模型)。因此,对于给定的输入,有一组10个输出,每个包含均值和方差。10个均值预测的平均值被视为最终参数预测。而集成中均值预测的方差对应于认知不确定性。
CatPred性能
训练好的CatPred模型在两个测试集上进行了评估 - (1)"保留"测试集和(2)"分布外"测试集。评估标准基于决定系数(R2),它量化了预测值所捕获的回归目标数据方差的比例。对于每个动力学参数,保留测试集构建为完整CatPred-DB数据集中随机选择的10%(按大小)子集。根据其定义,保留测试集不包含任何用于训练模型的酶-底物对。分布外测试集是保留测试集的进一步子集(约占12至15%),不仅特定的酶-底物对,而且所有几乎相同的酶序列都从训练集中排除(图3a)。
图 3
根据构建方式,分布外集中的任何酶序列与训练集中的任何序列的相似度最高为99%。因此,在保留测试集上获得的预测指标反映了对未见过的酶-底物对的预测保真度。分布外测试集通过评估对未见过的酶(甚至排除序列相似度在99%以内的酶)的预测性能,提供了更严格的预测挑战。
作者发现,同时使用底物特征以及Seq-Attn和pLM特征的CatPred模型在所有三个酶参数上表现最佳(图3b)。值得注意的是,仅使用底物特征就能在Km和Ki预测中获得合理的性能(R2分别为0.465和0.525),与先前研究相当。虽然单独加入Seq-Attn特征略微改善了预测性能,但同时加入Seq-Attn和pLM特征导致kcat、Km和Ki预测获得"同类最佳"性能,R²值分别为0.607、0.648和0.637(图3b)。这些指标至少与现有所有预测kcat和Km值的机器学习模型一样好或更优。值得注意的是,除Seq-Attn和pLM特征外还使用从E-GNN提取的3D结构特征的CatPred模型,与仅使用Seq-Attn和pLM相比,并未改善预测性能。在保留测试集上,kcat、Km和Ki分别获得了0.607、0.648和0.639的R2值(图3b)。
重要的是,CatPred模型在Km的"分布外"测试集上仍保持了强大的预测性能(R²=0.536),尽管对于kcat和Ki,准确性较低(R²分别为0.390和0.409)(图3b)。值得注意的是,CatPred在分布外样本上的kcat预测R²值与TurNup在类似评估设置下获得的性能(R²=0.40)相当26。作者观察到,虽然添加Seq-Attn特征导致kcat和Km预测性能提高,但在分布外集上的改进不那么明显。这表明,尽管Seq-Attn中的self-attention层可以通过提取局部和全局模式成功编码酶序列,但它们无法考虑泛化到未见过的蛋白质序列所必需的序列间更高阶关系。ESM-2 pLM可以捕获此类特征,并已被证明能够编码蛋白质序列的进化丰富语义,解释了它们在分布外样本上的良好表现。作者进一步进行了消融研究,以验证在包含pLM特征的情况下是否仍需要Seq-Attn特征。研究显示,kcat和Km模型都受益于同时添加Seq-Attn和pLM特征。
作者发现,与仅添加Seq-Attn特征相比,添加Seq-Attn+pLM特征会导致Ki在分布外测试集上的预测性能变差(R2值0.461对比0.409)。这一看似令人惊讶的发现可能是由于在相对较小的Ki数据集(约为Km数据集的四分之一,见表1)上使用高维pLM特征导致过拟合。此外,对于同时使用E-GNN特征和Seq-Attn+pLM特征的CatPred模型,在分布外测试集上,kcat、Km和Ki的相应R2值分别为0.389、0.538和0.454,表明与仅使用Seq-Attn+pLM特征相比没有显著改进。
编译|黄海涛
审稿|王梓旭
参考资料
Boorla, V. S., & Maranas, C. D. (2025). CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters. Nature Communications, 16(1), 2072.