首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >mLife|华东师范大学张鲁嘉团队:高效的酶智能设计平台NAC4ED

mLife|华东师范大学张鲁嘉团队:高效的酶智能设计平台NAC4ED

作者头像
智药邦
发布2025-01-07 09:42:14
发布2025-01-07 09:42:14
1.7K0
举报
文章被收录于专栏:智药邦智药邦

计算方法包括分子对接、分子动力学、量子力学和多尺度QM/MM方法等,已被广泛用于研究酶催化机制和酶的设计。但这些会涉及大量手动操作,这显然对高通量方式模拟酶和突变体是不友好的。

近日华东师范大学的张鲁嘉团队开发了NAC4ED,能基于酶催化底物的“近攻击构象”设计策略进行高通量酶诱变计算。该平台通过使用来自近攻击构象的参数来表示酶催化机制,从而避免了过渡态搜索中涉及的复杂计算。NAC4ED能够实现酶突变体的自动化、高通量和系统化计算,包括蛋白质模型构建、复杂结构获取、分子动力学模拟和活性构象群体分析。在对40个突变体的验证测试中,该平台展现出92.5%的预测准确率,计算预测结果与实验结果高度一致。使用NAC4ED自动确定单个酶突变体所需的时间仅为实验方法的1/764。NAC4ED能高效地生成大量带注释的数据,为统计建模和机器学习提供高质量数据支持。

该平台在 http://lujialab.org.cn/software/ 上线供研究人员使用。

NAC4ED设计策略

酶具有高度的化学选择性、空间选择性和底物/产物选择性,能显著提高反应速率,高效完成催化反应。但自然界中存在的酶分子往往无法直接满足工业生产对温度耐受性、pH耐受性、催化活性和空间选择性等方面的严格要求,因此有了定向进化。

“近攻击构象(NAC)”的概念最初由Bruice在小分子体系中提出,随后扩展到酶的研究中,能有效地规避了酶催化反应中飞秒精度全原子水平上有限计算资源与复杂势能面近乎无限的计算需求之间的矛盾。在“NAC”理论中,根据所有米氏配合物结构与过渡态的相似性,推断出有利于反应发生的构象,并通过活性构象态的群体来分析活性。表1系统地总结了近5年基于“NAC”评估活性或选择性的研究。但这些研究大多侧重于探索酶催化机理,而非增强酶性能的设计策略。2010年研究人员首次建立了LipK107四面体反应中间体的“NAC”,从而确定了该中间体的两种对映体结合模式,成功预测了LipK107在催化1-苯基乙醇外消旋化反应中的对映选择性。此后,基于NAC的酶设计逐渐发展,上海交通大学的石婷研究员和赵一雷教授等利用“NAC”理论,利用硫酯酶构筑了底物和共价中间体的活性构象,并研究了苯并酮硫酯酶对12元和14元内酯的催化机理。

虽然这些基于“NAC”的计算在避免超高自由度的反应过渡态计算过于复杂问题的同时,保持了较高的精度,但如何基于“NAC”进行设计,通过计算残基突变与底物的相容性图谱,从而精准指导天然酶重塑过程的系统描述,目前尚缺乏。

表1:近5年进行的酶研究的近攻击构象(NAC)参数

研究人员提出基于“NAC”的天然酶设计策略,通过对催化反应物理化学基础的精准分析,识别控制反应性能的活性构象,构建定量核心模型来控制特定性能,并结合催化距离或自由能进行合理设计,从而快速筛选出符合特定功能要求的酶突变体。在酶设计过程中筛选突变的适应性景观,并基于近攻击模型将复杂的催化过程精简为参数。

通过应用化繁为简的设计理念,研究人员开发了一个高性能的酶突变体设计平台NAC4ED(NAC For Enzyme Design的意思)。该平台利用NAC状态来增强酶设计效率,实现针对特定酶反应的突变体的高通量自动化设计和筛选。NAC4ED基于对特定酶-底物结合机制的理解,允许用户通过分子对接快速构建“NAC”催化模型并进行高通量突变体筛选。该平台根据酶-底物复合物构象的种群和能量来评估效果。NAC4ED由突变、对接、动力学模拟和评估分析四个模块组成。NAC4ED是第一个基于“NAC”模型设计用于高通量的酶突变平台。

NAC理论基础

根据“NAC”理论,将反应发生前最低能量构象kBT能级内所有可及构象(kB为玻尔兹曼常数)分为活性构象和非活性构象。如果即将形成新化学键的个原子之间的接触距离小于它们的范德华半径之和,并且键角与过渡态相近,则该构象被认为是活性的,这些构象被称为NAC。因此,以两个原子之间的距离或键角为参数,建立了酶反应模型,即酶的“NAC”模型(图1A)。在此基础上,采用NAC4ED设计策略,构建基于催化反应机理的活性构象,这些构象显著降低活化能,稳定过渡态,从而捕获底物识别和特异性所需的能量(图 1B)。结合分子动力学模拟获得关键构象参数后,分析一定时间内的构象变化,确定该时间范围内活性构象的比例(图1C),通过分析活性构象群体,采用公式(1)评估致突变作用。

图1:基于“近攻击构象(NAC)”的设计策略。(A)“NAC”参数模型。(B)酶催化状态,从复合物到 NAC 到过渡态到产物。(C)酶的“NAC”分析步骤包括三个主要阶段:建模、处理和分析。

验证NAC4ED 设计策略

选择环氧化物水解酶 (EH) 作为研究对象,催化外消旋环氧化物的动力学拆分或内消旋环氧化物的去对称化,从而导致对映体富集或手性二醇的生成。Reetz等人利用CASTing技术获得了一种很有前途的变体LW202,能够提高rac-1反应中的对映体选择性。尽管如此,仍然筛选了大约20,000个克隆。对来自黑曲霉(ANEH)的EH催化反应的研究表明,D192对位阻较小的C原子发起速率决定性的亲核攻击,导致环开环并形成共价结合的酯中间体。因此,为了快速获得高适应性的突变,研究人员采用NAC4ED设计策略,构建了ANEH的近攻击活性构象模型。ANEH氨基酸残基D192的攻击性O原子与进行SN2反应的环氧物C原子的紧密接触是反应发生的关键稳态。因此,定义活性构象的参数d设定为D192的OD2与底物C2之间的距离小于4Å,同时要求Y314、Y251与环氧基团之间有相互作用(图2A)。

成功定义活性构象模型后,通过分子动力学模拟比较了野生型(WT)和LW202 Michaelis复合物中的活性构象群体。经3次50ns分子动力学轨迹分析平均,WT和LW202的活性构象种群分别为32.9%和45.3%(图2B),该趋势与Reetz得到的结果一致,说明建立“NAC”模型有利于突变体的筛选,证明了NAC4ED设计策略的可行性。本研究提出高精度三维蛋白质结构,根据酶与底物的结合催化机理,推导稳定的近攻击活性构象,建立活性构象模型参数,并以此构象作为起点,设定分子动力学模拟条件,测试氨基酸突变和底物变异对近攻击态稳定性的影响,最后以轨迹中活性构象种群作为相关系数进行突变体评估,从而建立了一种基于“NAC”的高效酶突变筛选策略。

图2:活性构象数量的计算。(A)ANEH的NAC构象。D192由C和氧化苯乙烯之间的距离参数化。(B)WT(左)和 LW202(右)的1000帧计算为活性构象数量,其中直线跟随活性构象的帧数。

NAC4ED软件平台

基于此设计策略,研究人员开发了NAC4ED软件平台。该软件框架可分为四个操作模块,包括氨基酸突变模块、蛋白质-底物对接模块、分子动力学模拟模块和评估分析模块(图 3A)。首先,蛋白质-氨基酸模块需要酶结构的计算模型,并使用结构验证服务器SAVES评估其建模质量。对于已经解析的蛋白质结构,可从ProteinDataBank中获取蛋白质结构。对于未解析的大量蛋白质结构则通过AlphaFold2和RoseTTAFold等AI预测软件获得WT蛋白质结构。基于此生成新的酶突变体,针对突变体的构象优化模块利用分子动力学进行快速的侧链优化反应,准确描述酶构象变化对底物结合状态的影响(图3B)。其次,蛋白质-底物对接模块强调酶突变体的口袋和氨基酸侧链在构象变化后是否能与底物分子进行几何匹配。此模块所采用的协议与Reactive Docking一致,可以高效地筛选配体。通过设计好的近攻击构象结构参数来确定底物与酶突变体的结合状态,从不同构象中选取接近过渡态中间体的复合态作为设计的出发点,可以准确表征酶突变体与底物反应状态之间的相互作用。

具体而言,针对不同的酶-底物复合体系,首先分析催化机理,找出催化过程中的决速步骤。然后根据此步骤中的关键氨基酸和底物分子中被攻击的原子,计算出参与形成新化学键的两个原子之间的接触距离。该距离参数设置为小于它们的范德华半径之和,并且还应具有与过渡态相似的键角(图3C)。然后,MD模拟模块着重模拟真实环境中距离过渡态最近的NACs中酶-底物复合物的稳定性,获得直观的MD轨迹,并对底物-酶复合物的构象可及空间进行统计采样,为高效获取具有统计意义的活性结构群提供数据基础(图 3D)。最后,评估分析模块计算酶-底物复合物结构的活性构象群体,针对特定底物筛选出最优的氨基酸突变位点。

图3 (A) NAC4ED计算流程。首先对蛋白质和底物进行优化。然后突变以产生各种突变体,这些突变体也经过结构优化。(B) 突变前后蛋白质的结构变化。(C) 进行分子对接模拟,以模拟蛋白质突变体与底物的相互作用。如果对接结果符合NAC的标准,则该过程进入MD模拟。(D) MD模拟模块。通过模拟,分析突变体随时间变化的活性构象比,并计算其催化效率。

高效筛查突变

在NAC4ED平台的支持下,研究人员继续以EHs为研究目标进行研究,但本研究旨在对未知突变进行高通量筛选,并通过实验验证,获得新的高适应性突变体,评估NAC4ED平台的高通量筛选能力和所选突变体的适应性。为此,研究人员选取了里氏木霉(TrEH)中的EHs,其机制与许多ANEH相似。利用NAC4ED平台建立了TrEH的自动近攻击活性酶构象模型,生成突变并分析突变后活性构象群体的变化,以反映各突变体与底物的结合状态。TrEH的高通量筛选工作流程包括几个步骤。

首先,使用突变生成模块根据输入的TrEH晶体结构(PDB ID:5uro)自动生成突变体。对距离结合底物12埃范围内的97个氨基酸进行突变,得到包含1843个变体的突变空间。每个变体产生后,进行能量最小化以确保突变后酶保持稳定的构象。基于酶的催化机制,利用NAC4ED平台建立近攻击活性构象模型。导入底物结构并使用LigPrep 进行构象优化。输入上一步得到的每个最优构象,并在催化活性位点氨基酸D116周围设置对接框,默认距离为20 Å。使用Glide程序将每个突变与底物对接,最多产生32个对接姿势。值得注意的是,并非每个突变都产生最多的复合物数量,这反映了底物分子对不同空间障碍和相互作用的影响。对接后建立了符合催化机理的活性构象模型,其中D116的氧原子与底物环氧基碳原子之间的距离小于4 Å。随后进行500 ps的MD模拟,并采用公式计算活性构象群。

结果显示,G119I的活性构象比例最高,为24.3%,其次是L89Y,为20.9%,WT的活性群为15.6%(对酶突变体进行了实验验证,L89Y突变体的活性较高,为115.02%,与NAC4ED的筛选结果一致(图4B )。但G119I虽然活性构象比例最高,但是实验中表达表现不理想,无法测定酶活性,说明NAC4ED虽然可以用于计算机酶活性筛选,但是无法验证其表达表现。由于EH涉及催化和水解反应,而NAC4ED的设计是为了参数化复杂的催化过程,所以NAC4ED的设计策略侧重于限速步骤中的亲核进攻反应,而没有考虑水解反应的影响,这可能会影响设计的准确性。例如,在 W117A 突变时,尽管活性构象占比很高,但这可能是丙氨酸突变可能破坏了活性口袋中的氢键。这种不稳定性可能导致涉及中间体和活化水分子的反应效率显著降低。

研究人员还评估了NAC4ED平台的计算效率,利用一个GPU(NVIDIA GeForce RTX 3090)和一个CPU(Xeon Gold 6138,20核)的组合,发现获得一个变体的活性构象群体仅需13分钟。相比之下,由于结构操作和文件准备的繁琐过程以及计算运行时间,手动完成一种酶变体的建模需要将近50分钟(图4C)。另一方面,一种酶变体的实验表征涉及基因突变、测序验证、宿主转化、蛋白质表达、蛋白质纯化和最终酶活性测定等步骤,大约需要7天才能完成,比NAC4ED平台耗时多764倍(图 4D研究人员利用两台CPU(40核)和两台GPU在192小时内自动化完成了1843个变异体活性构象群体的评估,这归功于模拟过程中使用了NAC计算而非QM/MM计算。同时,实验表征方法在并行化方面受到限制,对于1843个变异体,实验表征需要12901天,是NAC4ED平台的1613倍。值得注意的是,评估1843个变异体的计算效率受到资源限制,如果部署在更大的计算集群上(40台GPU,1600个CPU核),NAC4ED平台的计算时间可以压缩到10小时。

因此,在计算资源条件下,NAC4ED平台可以将突变筛选效率提高数万倍。此外,在计算资源充裕的情况下,待评估的变体空间越大,NAC4ED的筛选效率越高,有可能达到数十万甚至数百万倍,大大降低实验表征成本,并有助于发现增强催化活性的氨基酸突变。研究人员无意夸大当前结果的影响,因为基于NAC的排序可能与实验验证结果并不完全重合,并且未考虑突变变体的表达和可溶性。另外值得一提的是,在MD采样时,系统可能容易陷入局部最优结构,或者可及空间的样本量可能不令人满意。在实际应用中,研究人员建议用户针对特定系统进行定制的基准测试,以优化模拟设置。

图4:NAC4ED的准确性和效率验证。(A)里氏木霉(TrEH)环氧化物水解酶活性构象比的计算。(B)TrEH突变体催化活性的测定。(C)NAC4ED流程和实验步骤。(D)NAC4ED自动化、手动操作和实验的时间消耗。

讨论

在大多数情况下,与昂贵的QM/MM计算相比,酶突变的高通量筛选的计算复杂度显著降低。与受制于高质量训练数据和特定模型可用性的机器学习方法相比,NAC4ED基于酶催化反应的物理原理提供了更广泛的概括。它允许在任何酶反应中进行氨基酸设计。此外,NAC4ED可以作为机器学习的特征生成器。它生成的关键催化参数和结果可以作为机器学习特征纳入训练过程,从而将基于物理的计算方法与机器学习技术相结合。


课题组介绍

张鲁嘉课题组(Lujia·Lab)依托“华东师范大学化学与分子工程学院”及“纽约大学(上海)理论与计算化学中心”于2016年11月组建。主要研究方向为酶分子动态机制解析、精准设计及应用开发。酶是典型功能性生物大分子,是绝大多数生命过程的催化基础,深入解析其动态催化机制对生命过程的认知、疾病的产生和诊断及治疗方法的研究具有重大意义。同时酶是绿色生物合成中“芯片”级的核心,精确设计符合工业生产需求的酶在化学化工、生物医药、轻工食品等领域均具有巨大价值。酶是由数万原子组成的生物大分子来完成量子层面的化学反应催化,涉及复杂的物理、化学、以及生物过程,意义重大但极具挑战性,是科学研究的热点和难点。

课题组在国内最早开展酶等蛋白质功能设计研究,目前已经建成从结构认知–机制解析–精准设计–应用开发的完整研究体系,充分融合理论计算、人工智能、生物化学、合成生物、化学催化等多学科技术手段,全方面开展相关研究。课题组目前已经搭建了干、湿实验结合的完备研究平台。干实验部分,实验室拥有10余节点的CPU和GPU计算集群,并且在天河二号等国家大型计算机组上拥有账号,部署了Schrodinger, Amber, Gromacs, Gaussian 等多个量子化学及分子动力学计算软件,以及课题组自行开发的ETSS、ESDS等酶分子设计软件。湿实验部分的拥有PCR、AKTA蛋白纯化仪器、多层摇床、无氧反应器、HPLC、P2标准生物安全实验室、二氧化碳摇床等研究生物学、同时共享使用的华东师范大学和纽约大学冷冻电镜设备平台。主要研究内容包括:

A. 基于蛋白质结晶、冷冻电镜的高分辨率蛋白质结构解析及催化反应关键过渡态捕捉。

B. 融合理论计算和人工智能的蛋白质计算、分子模拟和精准设计理论与工具开发。

C. 大肠杆菌、枯草芽孢杆菌、酵母、昆虫及哺乳动物细胞等真、原核表达系统的构建。

D. 合成生物学、绿色生物转化过程的分子基础、高性能酶分子设计及工业应用开发。

E. 蛋白质分子设计应用:人工蛋白材料的分子设计、抗体疫苗的结构功能机制解析及分子设计。

参考文献

Zhang, C., Feng, Y., Zhu, Y., Gong, L., Wei, H., & Zhang, L. NAC4ED: A high‐throughput computational platform for the rational design of enzyme activity and substrate selectivity. mLife.

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档