DRUGAI
今天为大家介绍的是来自哈佛医学院团队的一篇论文。定向蛋白质进化是生物医学应用的核心,但面临实验复杂性、多属性优化效率低下以及局部最优陷阱等挑战。虽然使用蛋白质语言模型(PLMs)的计算方法可以提供拟合的适应度景观(fitness landscape)指导,但它们难以跨越多样的蛋白质家族进行泛化,并且难以映射到蛋白质活性。作者提出了EVOLVEpro,这是一种少量样本的主动学习框架,结合了PLMs和回归模型,能够快速提升蛋白质活性。EVOLVEpro超越了现有方法,在所需属性上带来了高达100倍的改进。作者在RNA生产、基因组编辑和抗体结合应用中的六种蛋白质上展示了其有效性。这些结果突显了在最小实验数据下,少量样本主动学习相较于零样本预测的优势。EVOLVEpro为生物学和医学中AI指导的蛋白质工程开辟了新的可能性。
蛋白质多样性是由数十亿年的进化压力塑造的,筛选出适用于多种生物功能的潜在设计空间。理解蛋白质氨基酸序列与功能之间的联系对于推动生物学进步和开发新疗法至关重要。实验方法如深度突变扫描(DMS)可以直接测量蛋白质突变的功能影响,但仅限于探索可能的蛋白质序列空间的一部分。利用同源序列的计算方法可以减少绘制适应度景观和优化蛋白质所需的实验数据,但这些方法需要多重序列比对、高同源序列丰度(abundance)和最小的序列长度变化。
为克服这些挑战,可以通过广泛覆盖进化多样性进行训练来推断适应度。蛋白质语言模型(PLMs),如ESM2,是在全面的蛋白质序列数据库上训练的,以补全缺失的氨基酸。PLMs学习了有信息量的生物学表征,包括蛋白质结构预测和功能注释。PLMs已提出具有改进活性的蛋白质突变体,生成型PLMs已被用于设计新型蛋白质。然而,零样本预测的突变体成功率有限,且全新设计的蛋白质通常表现出低于,或与天然野生型(WT)序列相当的活性。虽然零样本模型可以预测抗体突变以提高结合亲和力,但它们无法改善抗体的其他重要特性,如可开发性和免疫原性。这些PLMs在零样本设置下未能显著提高蛋白质活性的原因在于它们由于训练数据有限无法泛化到新环境,以及进化适应度与蛋白质功能之间的差异。因此,使用基于PLM的方法进行蛋白质优化和解释需要额外的实验数据以实现特定设计目标。
优化的迭代方法,如定向进化(DE),利用蛋白质适应度景观的平滑性来提升功能。虽然这些方法在具有适当景观和筛选方法的情况下取得了成功,但它们可能需要大量劳动力,并且在崎岖的景观中失败,尤其是在陷入局部最优时。通过将DE与机器学习结合,可以获得一些改进。利用主动学习的机器学习定向进化(MLDE)方法已有效改善了多种蛋白质,但代价是需要全面的实验评估。将主动学习与更简单的蛋白质表示模型,如循环神经网络,结合,简化了进化过程,但之前在蛋白质模型上的主动学习尝试由于蛋白质表示空间的不足,未能在诸如荧光蛋白工程等概念验证展示之外很好地泛化。
鉴于基于PLM的方法在零样本方式下对变体效应进行排序或迭代提名蛋白质突变的能力有限,作者认为使用高性能PLM和小规模突变体集合的主动学习将改善定向进化的性能。
在此,作者提出了蛋白质进化模型EVOLVEpro(通过语言模型引导的蛋白质变异探索进化),以利用MLDE解决这些挑战。作者展示了EVOLVEpro同时进化蛋白质的多种活性的能力,为其在生物学和医学中的应用开辟了广阔的可能性。
模型部分
作者开发了一个基于深度学习的定向进化框架EVOLVEpro,结合了:(i) 一个PLM,将蛋白质序列编码为连续的潜在空间,以促进活性优化;以及 (ii) 一个顶层回归模型,从少量数据点(即低-N状态,low-N regime)中学习潜在空间与活性之间的映射。EVOLVEpro在多轮进化中主动学习适应度景观。在每一轮中,回归模型根据预测的活性对蛋白质序列进行排序,选择排名靠前的序列进行实验验证。循环迭代执行,以提高特定的蛋白质活性,直到达到预期水平(图1A)。
图 1
作者首先在计算机中通过整理12个深度突变扫描(DMS)数据集,优化了EVOLVEpro的计算框架,允许在任何实验测试之前使用模拟运行来选择最佳架构和参数。此模拟仅向EVOLVEpro揭示了模型提名的变体的真实活性数据。用于模型基准测试的12个DMS数据集涵盖了多种活性,包括病毒刺突蛋白、RNA引导的核酸酶、DNA结合蛋白、RNA结合蛋白和激酶,最大程度地提高了模型架构的通用性,这将作为最终的EVOLVEpro模型,用于整个研究的实验应用。
作者优化了EVOLVEpro架构的五个参数:(i)第一轮突变体选择策略,(ii)学习活性景观的顶层回归模型,(iii)选择下一轮突变体的主动学习策略,(iv)实验测定活性的数据处理,以及(v)PLM嵌入向量转换。首先,作者选择ESM-2作为基础PLM,因为其训练数据量大,模型规模分别超过2亿蛋白质和150亿参数。使用ESM-2 150亿参数模型,作者的网格搜索发现最佳策略为:(i)选择随机的一组第一轮变体,(ii)使用随机森林回归模型预测蛋白质活性,(iii)使用所有氨基酸平均的嵌入,以及(iv)在每轮进化中采用前N选取策略。该模型在仅五轮进化中提名了高频率的功能增强蛋白质变体,并且所有DMS数据集中,提名的顶级突变体的中位活性和活性从一轮到下一轮迅速增加。作者通过将最后一轮中最佳突变体的活性评分相对于第一轮在12个DMS数据集中的表现进行了缩放,计算了顶级突变体的活性提升。总体而言,进行了10轮EVOLVEpro进化,每轮16个突变体,识别出了活性比起始野生型(WT)序列高出最多2.2倍的顶级突变体。为了了解每轮突变体数量对性能的影响,作者模拟了每轮10到100个突变体的EVOLVEpro进化。结果发现,较大规模的轮次提高了预测准确性且未出现饱和,表明EVOLVEpro可用于极低突变体数量的进化(每轮少于20个突变体)以实现快速且低成本的实验表征,也可用于中等数量(每轮约100个突变体)的进化,以实现更快更高效的进化并减少轮次。
探究EVOLVEpro模型不同组成部分的影响
作者在优化了顶层模型和学习策略后,调查了一组蛋白质语言模型(PLMs)。使用网格搜索中的最佳参数,作者将ESM-2 15B与较小版本的ESM-2和ESM-1、UniRep、ProtT5、ProteinBERT、Ankh、独热编码(one-hot encoding)和整数编码(integer-encoded)的蛋白质表示进行比较,以评估它们在12个数据集上识别最高活性候选者的能力。ESM-2 15B参数模型在除两个数据集外的所有数据集上表现优于其他模型,并得到了最高比例的高活性突变体,确认其被最终选为EVOLVEpro潜在空间模型(图1B)。在作者的嵌入方法中,只有四种PLMs的预测准确性显著高于独热编码,通过单因素方差分析(ANOVA)确定,显示了基础层模型对EVOLVEpro性能的重要性。鉴于ESM-2 15B的高维度以及顶层回归模型所见样本数量较少,作者探讨了是否需要全输入维度(full input dimension)来实现观察到的模型性能。通过使用主成分分析(PCA)减少蛋白质嵌入的输入维度,作者测试了多种输入维度对顶层回归模型的影响。原始的全长嵌入在12个数据集中有9个表现最佳,全长嵌入在存在较少高活性突变体的困难工程任务中,如MAPK1激酶和PafA,对模型准确性贡献更大。相比之下,对于如infA和AsCas12f等较容易的任务,所有维度的活性均已达到饱和。
由于MLDE方法需要预训练一个判别模型,作者比较了增强的EVOLVEpro在不同预训练量下的表现(图1C)。主动学习大幅减少了所需的突变体总数:仅进行5轮进化(每轮16个突变体)的EVOLVEpro在性能上等同于预训练了160个突变体的EVOLVEpro,而10轮进化(每轮16个突变体)的EVOLVEpro则等同于预训练了500个突变体。此外,EVOLVEpro的表现优于零样本预测方法(图1C)。这一比较证实了EVOLVEpro的少量样本特性,使得定向进化效率高,且每轮实验工作量小,测试数量低(图1C)。为了探讨EVOLVEpro是否受益于更善于外推复杂景观的基础模型,作者将随机森林回归模型与高斯过程回归模型和基于k近邻的回归模型进行了性能比较,发现随机森林回归模型在12个数据集中有10个表现最佳。这一发现与随机森林回归模型在其他预测任务中的低样本量情况下的有效性一致。
最后,作者分析了EVOLVEpro与独热编码、整数编码及零样本预测相比,每轮活性提升的情况。在每轮16个突变体的情况下,EVOLVEpro在所有数据集中到第5轮时都找到了显著增强活性的变体(图1D)。此外,独热编码和整数编码框架通常在进化过程中更早达到饱和,且从未达到EVOLVEpro所实现的活性水平。有趣的是,作者观察到某些蛋白质在第3轮之后活性呈非线性增长,这表明随着EVOLVEpro进化的进行,在映射蛋白质活性景观方面取得了更显著的进展。
利用EVOLVEPro进行抗体优化
作者使用EVOLVEpro优化了两种具有治疗相关性的单克隆抗体:C143,这是一种针对SARS-CoV2刺突蛋白的抗体,和aCD71,这是一种针对人转铁蛋白受体的抗体,用于在体内向肌肉和心脏细胞递送药物和siRNA。aCD71与Delpacibart有超过90%的序列同源性,Delpacibart是用于肌强直型营养不良的II期临床阶段治疗方法。这两种抗体对其对应抗原具有低纳摩尔亲和力,这为EVOLVEpro的进一步优化带来了挑战。作者设计了一个多目标优化方案,使用EVOLVEpro对抗体的表达水平和与目标抗原的结合亲和力进行优化。多特征的优化显示,该模型能够同时优化抗体的结合能力和产量,因为抗体突变通常会影响多个抗体特性,包括表达、稳定性、溶解性、半衰期(half-life)或免疫原性(immunogenicity)。关键是,使用蛋白质语言模型或基于结构的反向折叠模型进行零样本的可开发性优化是困难的,因为序列与可开发性或其他非结合特性之间的关系并没有被进化序列或结构数据直接捕捉。在作者的多目标定向进化方案中,作者将结合亲和力的权重设置为表达水平的四倍(即可开发性评分,developability score),以优先考虑具有更高亲和力的变体(图2A)。
图 2
对于C143的进化,作者使用酶联免疫吸附测定(enzyme-linked immunosorbent assay,ELISA)定量了其与SARS-CoV-2刺突蛋白(武汉株)SP6稳定变体的结合亲和力。经过3轮EVOLVEpro进化后,结合能力有所提升,超过了之前的零样本方法(图2B)。在第4轮中,作者发现轻链突变体(N28K)有显著改进,其IC50为0.19纳摩尔(图2C)。利用前4轮的单点突变,作者让EVOLVEpro设计了第五轮的多突变组合。最佳的多突变体(轻链N28R/Q40K与重链R39K)与SP6刺突抗原的结合IC50为60皮摩尔(图2C),这可能是由于轻链上的N28R与重链上的R39K之间的协同作用所致。由于观察到显著的改进,作者在多突变进化中仅进行了一轮,但实际上,可能需要多轮多突变测试才能在期望的特性上达到收敛。作者发现,许多改进的结合体(binder)牺牲了产量(图2D),这是由于多目标设计中对结合的偏向造成的权衡。尽管存在这种权衡,部分C143突变体,如R39K,既增加了亲和力又提高了蛋白表达,显示出可开发性可以与结合亲和力共同优化。
作者探讨了EVOLVEpro提名的前几名突变相对于训练数据和自然界已知抗体变体的可能性。作者分析了前10名突变在热点区域的出现情况以及与生殖系序列的偏离。作者发现前10名突变中没有一个是回到生殖系未突变的共同祖先序列(UCA)的突变。生殖系未突变共同祖先序列中,轻链N28位点为丝氨酸(S)。然而,EVOLVEpro推荐的提高亲和力的突变是赖氨酸或精氨酸,两者相对于Uniprot训练输入的可能性均低于0.05,这进一步强化了EVOLVEpro突变稀有且新颖的观点。此外,这一观察结果突出了顶层回归模型的实用性,通过促进对蛋白质适应性景观未知区域的探索,来探索PLM训练输入中未见的稀有突变。此外,作者发现前列单一突变体N28R(轻链)位于互补决定区(CDR),但大多数提高亲和力的突变(前10名中的7个)位于框架区域。这突显了EVOLVEpro在抗体整个可变区域上的全新探索,以发现那些在框架区域看起来不太可能或不直观的提高亲和力的突变。为了进一步理解EVOLVEpro的突变轨迹,作者将模型对特定残基的关注表示为累积频率,发现重链上的K33、R39和D58以及轻链上的S14和N28被反复探索。
作者使用EVOLVEpro对抗CD71抗体进行计算进化时,利用酶联免疫吸附测定(ELISA)测量其对人类TfR蛋白的目标结合亲和力,并通过抗IgG测量抗体的表达量。仅经过几轮EVOLVEpro的进化,作者观察到结合能力有所提升(图2E)。作者使用高效进化算法获得了10个突变体,用于与EVOLVEpro进行基准对比,发现EVOLVEpro提名的突变体比野生型高35倍,而高效进化算法的最佳突变体仅高8倍。在第4轮,作者发现最佳的单一突变重链S92A与抗原的结合IC50为29皮摩尔,显著高于野生型的551皮摩尔(图2F)。作者还要求模型基于前四轮的单突变数据对多突变体进行排序,并进行了一个多突变体测试轮。在第五轮的多突变体中,作者使用重链T70A/S92V突变体提高了结合和表达。该多突变体与hTfr蛋白的结合IC50为19皮摩尔(图2F)。有趣的是,大多数在第一轮后提名的突变体显示出表达谱和结合亲和力的显著提升,表明EVOLVEpro同时优化了可开发性和结合能力(图2G)。这一发现与C143抗体的结果形成对比,暗示两种抗体在结合和表达的Pareto前沿上可能有所不同,抗CD71的野生型序列比C143的野生型序列更易在多个属性上进行工程改造。未来的工作将通过研究其他抗体或蛋白质的多个属性之间的权衡,进一步提升EVOLVEpro更有效地穿越Pareto前沿的能力。
在分析aCD71抗体突变的新颖性时,作者发现前10名突变中只有一个在V73位置回到了生殖系未突变的共同祖先序列(UCA)。在重链S92位置,最佳突变的UCA序列为苏氨酸(T)。然而,EVOLVEpro推荐的提高亲和力的突变是丙氨酸或缬氨酸。与Uniprot训练输入相比,S92V突变的可能性低于0.05,突显了其稀有性。这表明EVOLVEpro能够深入选择在PLM基础层训练输入中未见的全新突变。此外,作者发现所有前10名提高亲和力的突变都位于框架区域,而非通常认为决定结合亲和力的互补决定区(CDR)。最后,为了理解EVOLVEpro在抗CD71上的突变轨迹,作者将模型对特定残基的关注表示为模型探索各个残基的累积频率,发现模型多次探索了重链上的T70和S92以及轻链上的Q38等多个残基。
作者使用AlphaFold 3对抗CD71抗体和C143抗体的结构进行了建模(图2H和I)。作者发现,EVOLVEpro在C143抗体的框架区域进行了两大主要的探索簇,轻链上的突变S14、Q40、L50和K45集中在一起,重链上的R39、S63和E89彼此靠近。这些突变可能通过改变可变区域的结构来改变结合能力。此外,轻链上的CDR突变N28位于CDR-L1区域,可能直接改变C143抗体与抗原之间的相互作用,由于复合物的置信度评分较低,无法使用AlphaFold 3进行建模(图2H)。对于抗CD71抗体,作者发现所有最佳突变都集中在重链域的一个区域。由于它们都位于框架区域,可能间接改变结合亲和力,这一假设得到了相对于野生型序列表达量增加的支持(图2I)。
最后,作者分析了每个突变体的观察到的活性与PLM预测的适应度景观之间的关系。作者将突变体的适应度计算为ESM2嵌入中的预测边际掩蔽分数(predicted marginal masked score,pMMS),并发现EVOLVEpro变体的活性与预测的ESM2适应度没有相关性(图2J)。为了将这一发现外推到整个C143和抗CD71的突变景观,作者将基底层的PLM适应度评分和顶层随机森林预测的折叠改进(predicted fold improvement,pFI)投影到潜在空间中,为每个可能的单突变体生成EVOLVEpro确定的蛋白活性景观。
两种分布之间的重叠相对较少,C143抗体的预测适应度与预测活性之间的相关性为-0.16,抗CD71抗体为0.01,进一步突显了ESM2对蛋白活性的理解不足。作者将各个突变体投影到ESM2嵌入的PCA空间中,发现更高适应度与更高功能之间存在两个相反的方向(图2K)。通过计算每一轮的几何中点,分析从第一轮到最后一轮的进化轨迹,发现顶层模型将C143抗体的进化过程引导到PCA1的高侧,将抗CD71抗体引导到PCA2的高侧,作者观察到这与更高的蛋白功能相关。
编译|黄海涛
审稿|王梓旭
参考资料
Jiang, K., Yan, Z., Di Bernardo, M., Sgrizzi, S. R., Villiger, L., Kayabolen, A., ... & Abudayyeh, O. O. (2024). Rapid in silico directed evolution by a protein language model with EVOLVEpro. Science, eadr6006.