前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Nat. Methods | 压缩比高达10^48!清华药学院张数一团队仅用82个“锚点”即可表示高适应度序列空间

Nat. Methods | 压缩比高达10^48!清华药学院张数一团队仅用82个“锚点”即可表示高适应度序列空间

作者头像
DrugAI
发布2024-12-20 18:17:24
发布2024-12-20 18:17:24
1230
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

今天为大家介绍的是来自清华大学药学院张数一团队的一篇论文。设计功能更强大的蛋白质需要深入了解序列与功能之间的关系,但这个关系空间范围庞大,难以探索。因此,通过识别功能上重要的特征来有效压缩这个空间就显得极其重要。作者建立了一种称为EvoScan的方法,用于全面分割和扫描高适应度序列空间,从而获得能够捕获其基本特征的锚点(anchor)。这种方法可以与任何能够与转录输出相关联的生物分子功能相兼容。随后,作者开发了深度学习和大语言模型,可以通过这些锚点来精确重建序列空间,无需依赖同源性或结构信息就能预测新的、高适应度的序列。作者将这种实验与计算相结合的方法称为EvoAI,并将其应用于一个抑制蛋白。研究发现,仅需82个锚点就足以将高适应度序列空间压缩,压缩比达到1048。序列空间的极致可压缩性为生物分子设计的应用和对自然进化的理解提供了启示。

蛋白质工程和设计能够创造具有优化功能的蛋白质,这些蛋白质可应用于生物技术、医学和合成生物学等领域。蛋白质工程的根本挑战在于理解和操控蛋白质适应度景观(fitness landscape),这是一个高维度且复杂的空间,包含了大量可能的序列和功能。

使用定向进化技术的实验方法,如深度突变扫描、饱和突变和随机文库构建,能够提供有价值的信息,但这些方法在扩大规模时既耗时又费力,通常需要在准确性、精确性和序列空间覆盖率之间进行权衡。这些实验方法通常局限于低维度突变,无法考虑在高维空间中塑造蛋白质适应度景观的自然选择压力。一些更高效的定向进化工具,如噬菌体辅助连续进化(phage-assisted continuous evolution,PACE)、OrthoRep,主要提供关于如何获得高适应度变体的信息,但这些信息不足以对整个适应度景观进行建模。计算方法,如基于结构或序列的蛋白质适应度景观建模,可以评估更大的序列空间,但受限于训练数据的可用性和质量,特别是对于同源物较少或没有结构信息的蛋白质而言。这些计算方法通常也无法考虑影响蛋白质功能的其他生物因素,如体内相互作用或翻译后修饰。

理想的蛋白质设计和工程方法应该利用全面的高通量实验数据来指导高效的计算模型。研究表明,来自定向进化实验的高通量短序列数据可以帮助机器学习方法重建全长基因型并识别高适应度变体。此外,即使是数量有限的功能性变体,也能帮助深度学习模型进行蛋白质设计。近期研究显示,蛋白质适应度景观虽然崎岖且存在许多局部峰值。作者认为这些功能性变体或局部峰值是捕获高适应度基因型空间特征的关键"锚点"。作者假设,通过识别足够数量的锚点来捕获所有重要特征,可以有效压缩高适应度基因型的设计空间,这些锚点随后可以指导深度学习模型重建和探索整个空间。然而,目前还没有方法能够快速而全面地生成这些锚点,特别是来自高维空间的锚点。这样的方法需要以极高通量的方式捕获蛋白质序列空间中均匀分布的变体的功能信息。

因此,作者提出了EvoAI,这是一种经验性探索、建模、压缩和重建序列空间的方法。作者的方法结合了高通量实验进化和计算方法来捕获并学习空间的基本特征。首先,作者开发了一种进化扫描方法,该方法通过整合基于EvolvR的分段突变系统来改进噬菌体辅助非连续进化。与传统方法相比,这种方法能够从低维到高维进行快速和全面的进化扫描,并捕获有价值的适应度锚点。随后,作者开发了深度学习和大型语言模型,从这些锚点重建序列空间并设计新的蛋白质,这十种蛋白质全都表现出显著提高的活性(最高提升11倍)相比野生型。对于一种抑制蛋白,作者证明这个庞大的设计空间可以被极大压缩,从1048压缩到82个点。

Evoscan模块

图 1

图1a是EvoScan系统的缩略图,而图1中其余项为EvoScan在PPI进化上的开发与验证。M13噬菌体具有单链DNA基因组,但在感染宿主细胞后会形成双链形式。作者认为这应该能让使用CRISPR引导的DNA聚合酶的EvolvR突变系统在M13噬菌体基因组中引入突变,从而进行选择和进化。在这里,nCas9-PolI复合物的表达由香草酸诱导的VanR-pVanA表达系统控制,该系统具有较大的诱导倍数变化和较低的背景表达,适合表达大型和高毒性蛋白质。这个系统被整合到一个中等拷贝数的ColE1质粒中,创建了靶向突变质粒,取代了传统PACE中使用的突变质粒。进化靶标被插入到M13基因组中gIII(M13的主要外壳蛋白)的位置,形成选择性噬菌体。辅助质粒表达引导RNA,这些RNA靶向目标基因的不同区域进行突变。辅助质粒还包含受遗传回路控制的gIII,该回路将目标基因的功能与gIII的表达联系起来。这使得在噬菌体繁殖过程中,具有改进和高适应度蛋白质功能的噬菌体得以选择,而具有无功能基因的噬菌体在稀释后被清除(图1)。

EvoScan可以探索适应度景观的特定区域来生成有价值的锚点。这些锚点通过使用不同的引导RNA将目标基因分割成特定片段来获得,从而降低适应度空间的维度。此外,通过在携带不同辅助质粒的宿主细胞上连续传代,组合不同的引导RNA,可以在更高维度上扫描和识别锚点,从而捕获蛋白质序列空间的更多细节。为了研究和扫描蛋白质序列空间,作者验证并使用该系统研究了三种具有不同功能的蛋白质:一种特异性识别增强型绿色荧光蛋白的纳米抗体(用于蛋白质-蛋白质相互作用研究);SARS-CoV-2主蛋白酶及其抑制剂(用于蛋白质-配体相互作用研究);以及AmeR及其DNA操纵子(用于蛋白质-核酸相互作用研究)。

EvoScan的验证与纳米抗体中快速识别锚点

为了验证EvoScan并将该系统应用于蛋白质–蛋白质相互作用研究,作者选择了抗原–抗体相互作用作为研究对象,在此案例中使用了EGFP及其对应的纳米抗体。作者首先建立了一个反向双杂交系统,将纳米抗体与EGFP的相互作用与gIII的表达耦合起来。具体来说,作者将EGFP与cI434阻遏蛋白融合,并将其纳米抗体与cIp22融合,而cIp22可以与cI434相互作用,但不能与自身作用。编码纳米抗体–cIp22的基因被插入噬菌体以替代gIII,而编码EGFP–cI434的基因被整合到辅助质粒(AP)中并转化入大肠杆菌中。

在噬菌体感染后,EGFP和纳米抗体的相互作用促使cI434与cIp22形成四聚体复合物,从而抑制p434启动子的活性(图1b,c)。在辅助质粒中,一个转录抑制因子PhlF被置于p434启动子下游,而gIII基因则受pPhlF启动子控制。因此,EGFP与纳米抗体的相互作用最终会诱导gIII的表达,从而允许噬菌体的复制(图1b)。作者测试了多种核糖体结合位点(RBS)的组合,最终选择了P3 RBS用于PhlF,B0064用于gIII(图1d)。这一电路能够有效复制携带EGFP纳米抗体的噬菌体,同时限制空噬菌体的复制。

为了测试EvoScan是否能够快速识别增加适应性的蛋白变体锚点位点,作者通过在纳米抗体的互补决定区3(CDR3)中引入E103K突变,人工破坏了EGFP与纳米抗体之间的相互作用,而该区域对目标结合至关重要(图1c,e)。作者设计了4种不同的gRNA,分别靶向纳米抗体基因的不同片段,其中gRNA3专门靶向包含E103K突变位点的片段(图1f)。在EvoScan系统中进行两轮传代后,作者观察到仅靶向E103K片段的gRNA3组表现出噬菌体滴度的增加,而其他三组均下降(图1g)。对噬菌体上清液的测序结果证实,在gRNA3组中,E103K突变已恢复为谷氨酸。这验证了EvoScan能够成功且高效地识别在蛋白功能中起重要作用的锚点位点。

EvoAI能够重建序列空间并预测新蛋白

鉴于突变在高维空间中的复杂相互作用,作者接下来计划利用深度学习提取从EvoScan获得的这些锚点的潜在特征,以精确表示和重建AmeR的高适应性基因型设计空间,从而能够设计出实验结果中未包含的具有多个突变的新蛋白。作者将这种结合实验与计算的混合方法命名为EvoAI。

图 2

作者结合了预训练的GeoFitness模型与蛋白语言模型ESM-2,并通过多层感知器提升蛋白突变效应预测的准确性(图2a)。GeoFitness模型预训练于一个包含约30万个蛋白适应性值的大型数据集,涵盖多种实验情况和指标,能够预测单点突变的蛋白适应性。作者使用82个锚点进行训练和验证,并采用10折交叉验证法构建最终模型。训练集和测试集的斯皮尔曼相关系数分别达到0.91和0.84,显示出较高的一致性和训练效果(图2b)。这些结果表明,作者的深度学习模型能够精确预测高维空间中突变的多重相互作用以及复杂的表观效应。

图 3

为降低计算负担,作者从预测可信度较高的前11个突变位点中选择了13个突变,用于新蛋白设计(图3a, b)。随后,作者计算遍历了总计6个突变的所有可能组合,并通过模型预测计算折叠抑制能力(共进行了1,093次预测)。实验克隆了得分最高的10种蛋白序列,并测试了它们的折叠抑制能力。结果显示,这10种序列相较于野生型(WT)表现出10至38倍的抑制能力。此外,尽管这些预测分数非常接近,仍然在预测分数和实验结果之间展现出较高的斯皮尔曼相关系数(图3c, d)。

作为对比,作者测试了在不使用这些锚点信息的情况下,仅利用低维DMS信息预测的序列空间,并生成了每种包含6个突变的10个变体(图3e)。与高性能的EvoAI预测变体形成鲜明对比的是,这些由DMS生成的10种变体的活性均低于WT AmeR(图2c)。作者还构建并测量了EvoAI预测的10种中等分数和10种低分数变体,它们的抑制能力与预测结果一致(图3f–h)。值得注意的是,这些变体的性能均优于DMS组(图3f),证明了模型在预测高适应性序列方面的鲁棒性。

这些结果验证了,通过这些压缩锚点,深度学习模型可以准确重建高维空间中高适应性基因型的设计空间,并设计出功能改进的新蛋白序列。作者在AmeR中确定了39个突变位点,这些位点可能生成高适应性基因型,其理论设计空间约为()。作者的EvoAI方法有效地证明了AmeR广阔的高适应性基因型设计空间可以被压缩约倍至82个锚点。

结论

在探索蛋白质适应性景观的复杂性和广度时,长期以来一直面临挑战。作者开发了EvoScan系统,将EvolvR突变与噬菌体筛选相结合,用于在不同维度上探索蛋白质序列空间。EvoScan能够识别重要锚点,这些锚点是具有关键突变的变体,代表了序列空间。作者证明,当这些锚点与深度学习方法(EvoAI)结合时,可以准确重建序列空间并设计新蛋白,展现了序列空间的极高可压缩性。

作者的方法相较于现有方法有几个重要优势。首先,它在现实的适应性优化与均匀采样序列空间之间取得平衡,能够快速探索高维空间,生成更多样化且功能更强的变体,并提供有关序列与功能关系的更丰富信息。其次,通过在EvoAI中整合经验进化扫描和深度学习模型,作者结合了两种方法的优势,利用深度学习所学到的属性动态引导扫描过程。未来的可解释深度学习进展可能揭示潜在规则或模式,并提供蛋白质如何适应、克服进化限制或权衡的洞见。第三,该方法可以进化和研究缺乏结构信息或涉及复杂相互作用的蛋白质。作者展示了EvoScan能够捕捉多种功能蛋白(如蛋白–蛋白、蛋白–配体以及蛋白–核酸相互作用)的锚点。

该方法应能适用于任何可以与转录输出耦合的生物分子功能(例如通过小分子传感器的酶),因此可以用于研究多种生物分子的序列空间。然而需要注意的是,化学空间(如酶反应)或配体空间(如本研究中测试的蛋白质相互作用)可能存在差异,需要进一步探索。

编译|黄海涛

审稿|王梓旭

参考资料

Ma, Z., Li, W., Shen, Y., Xu, Y., Liu, G., Chang, J., ... & Zhang, S. (2024). EvoAI enables extreme compression and reconstruction of the protein sequence space. Nature Methods, 1-11.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档