前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Nat. Biotechnol. | 从通用蛋白质语言模型中高效演化人类抗体

Nat. Biotechnol. | 从通用蛋白质语言模型中高效演化人类抗体

作者头像
DrugAI
发布2023-09-19 14:08:18
发布2023-09-19 14:08:18
3830
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自斯坦福大学研究团队的一篇利用语言模型模拟人类抗体自然演化的论文。自然进化必须探索广阔的可能序列空间,以寻找稀有但理想的突变,这表明从自然进化策略中学习可以指导人工进化。在这里,作者报告了一种利用通用蛋白质语言模型能够高效演化人类抗体的方法,该方法通过提出在进化上是合理的突变来改进抗体,尽管该模型没有提供关于目标抗原、结合特异性或蛋白质结构的任何信息。作者进行了七种抗体的语言模型引导提高亲和力实验,每种抗体仅经历两轮实验进化,筛选了每种抗体的20个或更少的变种。结果显示,作者成功将四种临床相关、高度成熟的抗体的结合亲和力提高了多达七倍,将三种未成熟抗体的结合亲和力提高了多达160倍。此外,许多设计还展示出良好的热稳定性和对埃博拉病毒和严重急性呼吸综合征冠状病毒2(SARS-CoV-2)假病毒的中和活性。改善抗体结合的相同模型还可以指导不同蛋白质家族和选择压力下的高效进化,包括抗生素抗性和酶活性,这表明这些结果适用于许多情境。

进化搜索了一个巨大的可能序列空间,寻找能提高适应性的罕见突变。在自然界中,这种搜索是基于随机突变和重组的简单过程,但在实验室中,对蛋白质进行定向进化时,采用相同的方法会给实验带来相当大的负担。基于随机猜测或蛮力搜索的人工进化通常需要大量的努力来探测活性较弱或非功能性的蛋白质,需要高实验通量来识别具有改进适应性的变体。尽管进化适应性在一定程度上由特定的选择压力决定,但也存在一些更普遍适用于整个蛋白质家族或对大多数蛋白质的适应性和功能是必需的属性;例如,一些突变可以保持或改善稳定性或可进化性,而其他突变可能会引起结构不稳定或诱导错误折叠状态。改进进化效率的一种方法是确保突变符合这些普遍属性,作者称之为进化的合理性。识别出合理的突变可以帮助引导进化远离无效的区域,从而在不需要任何对所关注的功能的明确知识的情况下间接提高进化效率。然而,这种策略也面临挑战,首先,蛋白质序列受到复杂规则的控制,其次,即使作者将搜索限制在进化合理的突变上,那些同时也改善了特定适应性定义的突变仍然可能在实际应用中非常罕见(图1a)。更广泛地说,一个重要的未解决问题是,是否一般的进化信息(例如,从过去进化中的序列变异中学习模式)足以在特定的选择压力下实现高效进化(例如,与特定抗原的更高结合亲和力)。

图 1

在这里,作者展示了仅凭借进化信息就可以在特定选择压力下以高效率改善适应性(图1b)。在主要实验测试案例中,作者专注于人类抗体的亲和力成熟,其中作者定义的特定选择压力是对特定抗原的更强结合亲和力。在自然界中,一种称为体细胞高度突变(somatic hypermutation)的过程通过重复突变进化或“成熟”抗体谱系,使其对抗原具有更高的亲和力。在实验室中,由于具有高亲和力的抗体对疾病靶点具有治疗潜力,亲和力成熟是定向进化的主要应用领域。为了选择具有进化合理性的突变,作者使用了称为语言模型的算法(图1c)来学习在自然蛋白质中可能出现的模式。因为作者使用的是通用语言模型,这些模型在非冗余序列数据集上进行训练,这些数据集旨在代表所有自然蛋白质的变异,所以这些模型只能学习比专门针对抗体序列训练的模型或直接受结合亲和力监督的模型更一般的进化规则。在给定单个起始序列的情况下,作者使用这些语言模型推荐可能的氨基酸替换,并对其进行实验筛选以改善适应性。对于最终用户而言,该算法仅需要一个自然序列,不需要任何初始结合亲和力数据、抗原知识、任务特定的监督、进化同源物或蛋白质结构信息。

利用蛋白质语言模型进行高效的亲和力成熟化

最近的研究表明,尽管没有对特定选择压力的了解,语言模型仍能够预测自然进化。然而,这些先前的研究只是在完全了解进化轨迹的情况下,回顾性地预测了进化的方向。作者假设蛋白质语言模型的预测能力可能使研究人员只需向算法提供单个野生型抗体序列,就可以获得一小组(约10^1)高可能性的变体,以实验测量其理想性能。这是一个非常普遍的设置,不需要对蛋白质结构或任务特定的训练数据进行假设。然而,一个重要的问题是,更高的进化可能性是否会有效地转化为更高的适应性。为了验证作者的假设,作者进行了以语言模型可能性为指导的进化实验,对代表不同抗原和成熟程度的七种抗体进行亲和力成熟化。

作者使用了ESM-1b语言模型和ESM-1v集合(总共六个语言模型)进行了进化实验。ESM-1b和ESM-1v分别是在UniRef50和UniRef90上进行训练的,这些是代表观察到的数百万自然蛋白质变异的蛋白质序列数据集(UniRef90包含约9800万个序列),其中只包含几千个与抗体相关的序列。这些数据集还构建成这样一个特点,即任意两个序列之间的相似性不超过50%(UniRef50)或90%(UniRef90),以避免生物冗余。此外,这两个数据集是在该研究考虑的SARS-CoV-2抗体的发现以及所有引起关注的SARS-CoV-2变种的进化之前构建的。因此,为了使这些抗体进化,语言模型不能利用训练数据中的特定疾病偏差,而必须学习更一般的进化模式。

作者使用这些语言模型计算了抗体变异区(重链VH或轻链VL)中所有单个氨基酸替换的可能性。作者选择了在六个语言模型共识下具有较高进化可能性的替换。在第一轮进化中,作者通过生物层干涉仪(BLI)测量了只包含单个氨基酸替换的变体与抗原的相互作用强度。在第二轮中,作者测量了包含替换组合的变体,其中选择的替换基于第一轮结果中保持或改善结合的替换。作者对所有七种抗体进行了这两轮实验,在第一轮中每种抗体测量了8-14个变体,在第二轮中每种抗体测量了1-11个变体(图2)。临床相关抗体的变体,其作为IgG的解离常数(Kd)非常低或无法检测到,作者通过测量单价的Fab区域的解离常数来筛选;未成熟抗体的变体通过测量双价IgG的表观Kd,然后再测量最高亲和力变体的Fab片段的Kd值来筛选。

图 2

在七个进化轨迹中,除了一个变体外,作者成功表达了其他122个变体。在所有七种抗体中,实验发现第一轮的Fab变体(包含单个氨基酸替换)中71-100%保持与抗原的亚微摩尔级结合,并且14-71%的变体导致结合亲和力的改善(与野生型相比,定义为Kd改善1.1倍或更高)。大多数第二轮的变体(包含多个替换)也具有改善的结合能力。除了REGN10987之外,作者还获得了至少两倍Kd改善的变体。所有76个语言模型推荐的单个氨基酸替换中,有36个发生在框架区域,而框架区域通常在传统亲和力成熟中的突变比互补决定区(CDRs)少12个。

尽管这些临床相关抗体的起始亲和力已经非常高(在低纳摩尔或皮摩尔亲和力范围内),作者成功改善了它们的结合亲和力。作者还成功改善了所有三种未成熟抗体的亲和力,改善程度通常比成熟抗体的改进要大得多,表明与亲和力相关的进化更容易。对于MEDI8852 UCA,最佳Fab设计在与HA H1 Solomon(A/Solomon Islands/3/2006(H1N1))的结合中实现了Kd的2.6倍改善,这是筛选时使用的抗原。

进化的抗体的额外特性描述

尽管作者的目的是筛选被改善的结合物,作者还对这些变体进行了稳定性的测试。在测试的31个语言模型推荐的增强亲和力变体中,有21个Fab的熔化温度(Tm)比野生型更高,并且所有变体均具有较高的热稳定性(Tm > 70 °C)。当使S309具有更高的亲和力时,作者的最佳设计的Tm为72.8 °C,而野生型为72.5 °C。作者进化的mAb114、mAb114 UCA、REGN10987和C143变体也保持或改善了热稳定性。然而,改善的热稳定性并不能完全解释作者的亲和力成熟结果,因为观察到MEDI8852及其UCA的亲和力成熟变体的Tm略有降低,尽管这些Fab仍然具有热稳定性(图2)。此外,作者还对亲和力成熟的设计进行了多特异性结合的测试,因为与非预期的靶点结合可能在治疗环境中导致不良副作用。对于每种抗体,作者使用一种多特异性分析方法同时测试了野生型和三个亲和力成熟的变体,评估其对可溶性膜蛋白的非特异性结合能力。可以观察到七种抗体的所有变体在多特异性方面没有实质性的变化,所有测试的抗体的多特异性值都在治疗可行范围内(图3a)。

图 3

亲和力增强替换的独特性

尽管能够找到任何亲和力的改进对于工程应用本身就是有用的,但作者也对算法推荐的一些变化是否表现出“独特性”感兴趣虽然确实在模型的训练数据和抗体序列数据库中观察到许多亲和力增强的替换,但其他替换表现出更高的独特性。例如,在MEDI8852 UCA轨迹中,VL G95P框架替换(图2)将在99%的天然抗体序列中观察到的甘氨酸改变为在少于1%的天然序列中观察到的脯氨酸。总体而言,32个亲和力增强替换中有五个(约16%)涉及将野生型残基改变为罕见或不常见的残基,并且在仅考虑源自相同胚系基因的抗体的自然变异时也是罕见的。

这些结果表明,语言模型既学习了涉及高频残基的“简单”进化规则,也学习了无法通过多序列比对或传统抗体进化捕捉到的更复杂的规则。从概念上讲,这些低频率的亲和力增强替换类似于其他学科中的例子,其中人工智能程序偶尔会做出不寻常但有利的选择(例如,不符合直觉的游戏决策),因此可能值得进一步研究。

在不同蛋白质家族中的普遍性

鉴于通用蛋白质语言模型在指导抗体进化方面的成功,作者还测试了同样的模型在不同蛋白质家族中获取高适应性变体的能力。先前的研究表明,通用蛋白质语言模型的似然性与高通量测定的实验表型具有良好的相关性,涵盖了约10^3到10^4个变体。可以观察到,同样的模型在根据抗生素抗性、癌症药物抗性、酶活性或病毒复制适应性等多种适应性定义下,通过仅测量少量(约10^1)的变体,也可以引导有效的进化。作者在亲和力成熟实验中使用相同的算法和语言模型,针对八个不同蛋白质家族的人类、细菌或病毒组织中的野生型序列,提出了少量(约10^1)的变化建议。然后,作者使用高通量扫描突变实验的实验测量结果来验证语言模型推荐的预测(需要强调的是,这些测量结果并没有提供给模型)。与抗体进化实验类似,作者感兴趣的是在少量语言模型推荐的建议中尽可能富集高适应性变体(而不是像先前研究中那样预测整个突变空间的适应性)。

图 4

语言模型推荐的变体在九个测定数据集中的六个数据集中明显富集了高适应性值的变体。与随机猜测相比,在除一个数据集外,语言模型推荐的变体中高适应性变体的比例要大得多(图4a)。例如,对于β-内酰胺酶的所有单残基替换中,只有7%表现出高阿莫西林耐药性,而在语言模型推荐的替换中,这一比例达到40%。同样的一组语言模型也可以帮助优先选择对HA进行单残基替换,以获得高病毒感染能力的变体(从7%增加到31%),以及对PafA进行替换以改善酶动力学性能的变体(从3%增加到20%)。此外,对于所有蛋白质来说,即使在小规模的进化活动中,仅仅通过语言模型指导的第一轮也可以获得高于或接近适应性值的99百分位数的变体。与包括监督学习和基于结构的模型在内的47种其他变体效应预测方法相比,根据推荐高适应性变体的能力,作者的策略在平均水平上排名更高。

结论

作者展示了通用蛋白质语言模型可以仅基于野生型抗体序列指导高效的亲和力成熟化。尽管作者模型的亲和力改进程度低于通常在成功的体内进化轨迹中观察到的程度,但体内的体细胞超突变探索了数量级更大的突变空间。此外,模型对未成熟抗体的亲和力改进范围介于2.3倍到580倍之间,而这是之前应用于未成熟的抗RBD纳米体的最先进体外进化系统所取得的范围。更广泛地说,作者研究的一个重要发现是,当选择少量替换进行改进适应性的测试时,仅通过进化信息就能提供了足够的先验信息(图1b和4b)。这导致一个没有任何任务特定训练数据或对抗原的知识的模型可以引导抗体进化朝着更高的结合亲和力发展,并且与特异蛋白质或特定任务的方法相比具有竞争性表现。作者假设,在许多情况下,当突变受限于一组普遍的进化规则时,相当大比例(大于10%)的突变都可能改善适应性(图4b),这对于实验室和自然界中的进化具有直接和更广泛的影响。

参考资料

Hie, B.L., Shanker, V.R., Xu, D. et al. Efficient evolution of human antibodies from general protein language models. Nat Biotechnol (2023).

https://doi.org/10.1038/s41587-023-01763-2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-08 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档