12月11日,中国科学院深圳先进技术研究院合成所罗小舟团队在Nature Communications发表题为 UniKP: A unified framework for the prediction of enzyme kinetic parameters 的文章。针对合成生物学和代谢工程领域湿实验测量酶动力学参数成本高、干实验算法难以准确预测等问题,研究团队提出了一种基于预训练大语言模型的统一框架UniKP,可从蛋白质序列和底物结构直接高精度预测酶的动力学参数,包括酶周转数(kcat)、米氏常数(Km)和催化效率(kcat / Km),并在考虑包括pH和温度等环境因素、高值区间预测等特定任务上实现了很好的适应。
该模型结合了目前先进的深度学习算法(IT)和生物技术(BT),实现了酶动力学参数准确高效的预测和特定酶的高效挖掘和进化,大大加速了酶改造和设计进程,为化学生物学、代谢工程等领域的研究和相关的工业应用,提供了新的解决方案。这是罗小舟团队继2022年利用预训练语言模型和集成模型实现高效准确的多肽和蛋白质功能预测后(doi: 10.1093/bib/bbac476),融合前瞻性的技术在IT和BT交叉领域的又一重要进展。
01探秘酶的“速度秘密”:为什么这么重要?
研究特定底物的酶催化效率是一个基础而重要的生物学问题,对推动酶工程、代谢工程和合成生物学领域发展,具有深远影响。而酶在特定反应中的催化效率通常通过酶动力学参数来衡量,包括酶周转数(kcat)、米氏常数(Km)和催化效率(kcat / Km)等。然而,目前酶动力学参数的测量主要依赖湿实验,这一过程耗时、昂贵且劳动密集,导致实验测得的酶动力学参数数据库规模相对较小。以包含序列信息的UniProt数据库为例,它包含了超过2.3亿条蛋白质序列,而酶学数据库BRENDA和SABIO-RK等仅包含数万条实验测得的动力学参数值,在某些物种中可能只有数十条序列,这种数据的稀缺性极大的限制了下游系统生物学和代谢工程领域的发展。
研究人员们尝试利用计算方法加速酶动力学参数的预测过程,但当前的模型主要集中在单独的kcat或者单独的Km的预测上,通过这些工具计算得到的kcat / Km的数值往往与实验测量的真实值明显偏离,而这恰恰是反映催化效率最直接、最关键的参数。此外,当前模型未考虑真实生物实验场景下的适应性,如会显著影响测得的酶动力学参数数值的环境因素,生物学家关心的特定区间的预测性能等。这些局限性使得当前工具停留在理论模型的开发和数据分析上,并未对酶挖掘和定向进化等真实生物实验中面临的挑战产生实质性的影响,而解决这些挑战对下游应用具有重要意义。
02黑科技登场!IT技术助力预测
为了解决上述问题,研究团队提出了基于预训练大语言模型和机器学习模型的酶动力学参数预测框架(UniKP),该框架仅通过给定酶的氨基酸序列和底物的结构信息,就可以实现多种不同的酶动力学参数(kcat、Km、kcat / Km)的预测。此外,为了实现对生物实验中不同任务场景的适应,我们对模型和数据进行了微调以实现更好的酶动力学参数的预测,包括针对不同环境因素、高值区间的预测等(图1)。
图1 UniKP框架结构
首先,研究团队以代表性的kcat数据集为例,系统的探索了机器学习模块16种不同的机器学习模型和2种代表性的深度学习模型(卷积神经网络和循环神经网络)在该数据集上五折交叉验证的性能,结果显示集成模型表现最好,尤其是随机森林和极端随机树显著优于其他模型,其中极端随机树表现最佳(R2 = 0.65)(图2)。
图2 不同机器学习模型的性能比较(机器学习模块)
接着,研究团队证实了UniKP框架在多个评估指标上显著超过了目前最先进模型的性能。UniKP框架在独立测试集上,决定系数R2相较于最先进的模型有高达20个百分点的优势;此外,在更严格的数据划分规则和不同数值区间下,UniKP也展现出了更好的稳健性。并通过SHAP特征分析发现,UniKP显示出对酶信息有一定的偏好性,这证实了在催化反应中酶信息的关键性作用。此外,UniKP也可以显著地对野生型酶及其突变体进行区分(图3-4)。
图3 UniKP以高度的准确性预测kcat数值
图4 UniKP显著区分野生型酶及其变体
03更真实的预测:考虑环境因素的两层框架
为了更好的模拟生物实验环境,研究团队进一步通过将环境因素纳入考量,提出了基于UniKP的两层框架: EF-UniKP,实现了更准确地酶动力学参数的预测。为了验证这个策略,我们创建了涵盖pH和温度信息的两个数据集来对EF-UniKP进行评估。在测试集上,EF-UniKP相较于UniKP和Revised UniKP表现更佳,R2分别高出20%和8%(pH数据集),以及26%和2%(温度数据集)。在酶和底物至少有一个不在训练集的测试中,EF-UniKP在pH数据集上的R2值相较于UniKP和Revised UniKP分别高出13%和10%,在温度数据集上分别高出16%和4%。此外,RMSE和PCC的优势也证实了EF-UniKP在考虑环境因素下对模型的显著改善(图5)。
图5 EF-UniKP框架实现环境条件下更准确的预测
04重塑实验数据,预测更具针对性
此外,在对已有的kcat数据集分析发现,其分布高度不均衡,大部分样本集中在中间,两端只有少数样本,呈现正态分布的特征。这种严重的数据失衡导致了高kcat值区间的预测有较高的误差。为了解决该问题,研究团队运用了代表性的重新加权方法,包括直接修改样本权重(DMW)、成本敏感的重新加权方法(CSW)、类平衡的重新加权方法(CBW)以及标签分布平滑(LDS)等,以kcat数据集为例进行了优化。这些方法都显著降低了高值区间的误差,其中CBW效果最佳,高kcat值的样本在CBW的优化下均方根误差比初始模型降低了6.5%(图6a-c)。
图6 重新加权方法改善高值区间预测 & UniKP框架泛化性的验证
进一步地,为了评估UniKP框架在Km和kcat / Km任务上的预测性能,研究团队选取了目前公开可获得的Km数据集和新构建的kcat / Km数据集,获得了目前最先进的预测性能,这也证实了通过该框架可以实现小分子-蛋白质相互作用任务的统一化预测(图6d-f)。
05UniKP助力酶挖掘和定向进化
最后,为了探索UniKP及其衍生框架在酶工程领域的实际应用,研究团队以类黄酮合成中的关键限速酶,酪氨酸脱氨酶(Tyrosine ammonia lyase, TAL)为例来进行挖掘和进化。实验结果表明,UniKP有效地识别了在数据库中TAL的同工酶里以及已知TAL的突变体里的高活性TAL酶,无论是挖掘新酶,还是进化已有酶,都得到了显著提高的催化效率,其中RgTAL-489T的kcat / Km值比野生型酶高出3.5倍。此外,衍生框架EF-UniKP也可以在考虑环境因素的情况下,精准识别高活性的TAL酶,验证的5条序列kcat和kcat / Km值均优于野生型TAL,最高的的kcat / Km值比野生型酶在给定pH情况下高出了2.6倍。该结果证实了UniKP可以有效的加速酶挖掘和进化的过程,有望成为推动生物催化、药物发现、代谢工程等领域的强大工具(表1)。
表1 UniKP和EF-UniKP辅助酶的挖掘和进化
06总结与展望
该项工作融合了先进的人工智能模型(IT技术)和生物实验(BT技术),建立UniKP框架实现了酶动力学参数的准确预测,同时对环境因素、高值区间等特定的实验任务进行了很好的适应。实验结果表明,利用UniKP框架可以有效助力酶挖掘和定向进化的过程,快速筛选到对特定底物更高活性的变体,显著降低了酶筛选的时间和成本。目前,研究团队正在与合成生物学领域公司森瑞斯生物科技展开进一步的合作,推动该技术的落地和转化。
该项工作利用IT领域先进的人工智能技术在BT领域进行尝试,即合成生物学基本的功能元件酶的催化效率的预测,表明了人工智能在合成生物学领域应用的巨大潜力,这对酶工程、系统生物学、代谢工程等领域具有重要的参考价值和应用意义,也为合成生物学方法的设计和研究开拓了新的思路。
领取专属 10元无门槛券
私享最新 技术干货