今天介绍一篇发表于23年的文章,Khan等人开发了名为AntBO的工具,这是一种利用组合贝叶斯优化来进行抗体设计的方法。AntBO可对各种抗原进行高效的体外设计,包括SARS-CoV,可以获得具有多样化的developability的抗体。
图1. AntBO通过不断提出CDRH3序列,并评估其与Absolut!的亲和力,然后根据这些评估结果来调整其后验概率。
在抗体计算设计中,主要的目标是开发能够与抗原(如病原体、肿瘤新抗原等)结合的CDR区域,因为CDR区主要定义了结合特异性。特别是CDRH3区域的序列和结构多样性最高,在结合位点中起关键作用。因此,高度多样化的CDRH3是单克隆抗体开发中被重新设计最多的组件。
在实际操作中,抗体的开发需要使用多种工具来构建结构模型、生成结构以及进行对接。由于所有可能的CDRH3序列的组合性质,穷举地检索每一个抗原-抗体模拟框架是不切实际。即使是在序列长度相对较短的情况下,搜索空间也会变得过于庞大,使得穷尽搜索变得不现实。而且,由于CDR序列长度可以很长(序列长度可以长达36个残基),实际的搜索空间更加巨大。
在这种情况下,对于某些CDRH3序列,尽管其与抗原的有着较大的结合亲和力,但可能由于其结构的不稳定可能对患者产生毒性。因此,对抗体进行评估是至关重要的,这些评估通常被称为可发展性评分(developability scores)。这些评分用于衡量抗体的一些典型属性,如是否含有不良的糖基化基序或序列的净电荷是否在预定的范围内。
最近,Robert等人提出了Absolut!,这是一个计算框架,用于生成抗体-抗原结合数据集,已经用于对不同的机器学习策略进行基准测试。Absolut!的重要性在于它能够帮助评估不同的机器学习策略在预测抗体-抗原结合时的性能,并且可以通过模拟数据来生成对真实世界数据的预测。然而,由于CDRH3序列空间的组合爆炸,详尽地测试每个的序列变得不现实,因此需要一种高效的解决方案来解决抗体-抗原结合设计的问题。
贝叶斯优化(Bayesian optimization , BO)提供了强大的机制来解决前述问题。BO使用高斯过程(GPs)作为黑盒的替代模型,将对领域的先验经验纳入到序列空间的搜索中。GPs的不确定性量化允许在探索和开发之间进行权衡。BO使用GP作为替代模型,为每个数据点引入均值和方差估计。当BO遇到新的数据点时,在最大化获取函数的局部搜索中,它会检查两个点是否具有相同的均值估计,并选择方差最大的一个,从而探索空间。当数据点具有相同的方差时,BO选择具有最高均值估计的数据点,从而利用解决方案。BO的这种属性使作者能够开发一种高效进行抗体设计的方案。
为了设计治疗性抗体,作者需要寻找具有高亲和力的CDRH3序列,同时满足特定的生物物理性质,使其在实际应用中表现理想。这些性质被称为“可发展性评分”,在本文中,使用了3个和CDR区相关的最关键属性,首先,是序列的净电荷,应该在[-2,2]之间;其次,在一条序列中,任何氨基酸都不应该重复出现5次;最后,序列不应包含糖基化基序,即 N-X-S/T形式的子序列,除非 X是脯氨酸。
这里对问题进行一个形式化的定义。将蛋白质序列的组合空间X描述为由长度为n的蛋白质序列组成,并这个空间中包含了20种不同的氨基酸。黑盒函数f是一个将蛋白质序列映射到真实抗原特异性的函数。作者将抗体设计问题构建为一个黑盒优化问题,其中希望找到一个满足发展性约束条件的最佳蛋白质序列。
CDRH3 --Developable 是用于衡量蛋白质序列(x)的发展性的函数,其会返回一个布尔值。
作者使用了一个信任区域(trust region ,TR)来限制搜索空间,以确保只有具有可行生物物理性质的序列被考虑。在每一次迭代中,他们定义了一个CDRH3-TR信任区域,这个区域在前最佳点x的周围,该区域内的点都是满足抗体约束条件,这些点最多与x相差Lt个指标。然后,作者进行TR搜获最大化。从x开始,随机选择一个氨基酸进行扰动,序列获得了优化则进行保留。Lt的值限制在[dmin ,dmax]之间 ,Lt达到dmin时,基于GP-upper-confidence bound 原则进行重新优化。
作者描述了他们对SARS-CoV病毒的抗体设计工作,并展示了他们使用的AntBO方法的效果。图表展示了设计的抗体在结合亲和力和可发展性参数上的分布情况。作者观察到,不同的设计方法在可发展性参数上表现出明显的差异,而AntBO方法则能够识别具有各种可发展性参数的序列。此外,作者还将AntBO方法设计的序列的得分分布与已知的实验序列进行了比较,发现它们的得分分布接近实验序列的平均值。因此,作者得出结论认为AntBO方法是一种更加实用的抗体设计方法。
Fig 4: AntBO可以设计出在可发展性得分方面表现多样的抗体
值得注意的是,Khan等人开发的AntBO是第一个展示将组合贝叶斯优化用于抗体设计问题的框架。
目前,AntBO存在一些潜在缺陷:(1) AntBO按顺序设计抗体,每次评估建议一个序列。为了提高实验效率,可以将AntBO改进为批处理模式,允许在较少的评估中设计更多序列。(2) 另一个限制是当前的结合模拟框架Ab- solut!采用基于预设的氨基酸间距和90°角的3D格点表示,这在许多情况下对抗体与感兴趣的抗原结合的配置限制较大。研究人员希望在未来的工作中解决这一问题,构建更为真实的框架,结合对接技术(如FoldX24)与结构预测工具(如AbodyBuilder29和Alpha-Fold Multimer)。(3) 目前的研究中,只设计了CDRH3区域,忽略了其他可能影响结合特异性的CDR环的折叠。上述限制提出了一些有前景的研究问题,研究人员希望在未来的工作中探索并拓展AntBO。
https://www.cell.com/cell-reports-methods/pdf/S2667-2375(22)00276-4.pdf