首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Biotechnol. | 序列展示技术构建大规模序列–活性数据集以实现快速蛋白进化

Nat. Biotechnol. | 序列展示技术构建大规模序列–活性数据集以实现快速蛋白进化

作者头像
DrugAI
发布2026-04-13 15:47:55
发布2026-04-13 15:47:55
210
举报

DRUGONE

研究人员提出了一种名为 Sequence Display 的新型实验平台,可在单次实验中生成大规模蛋白序列–活性数据集。该方法通过将蛋白变体的功能活性编码为相邻DNA条形码的突变频率,实现了对单个变体活性的高通量定量测量。

通过将这一大规模数据与蛋白语言模型结合,研究人员能够构建精细的序列–活性景观,从而精准预测突变效应并识别高性能蛋白变体。该方法已成功应用于多种蛋白体系,包括胞嘧啶脱氨酶、尿嘧啶DNA糖基化酶抑制剂、氨酰tRNA合成酶以及紧凑型Cas9核酸酶。研究人员进一步利用该平台获得的数据,实现了Cas9 PAM识别范围的扩展以及非天然氨基酸识别能力的进化。总体而言,该研究建立了一种能够系统解析蛋白功能空间并加速蛋白工程的新范式。

蛋白质工程的核心目标是获得具有特定功能的蛋白。然而,这一过程通常依赖于定向进化策略,需要多轮筛选与优化,实验周期长且成本高。

传统高通量方法,如噬菌体展示或选择筛选,主要侧重于筛选高活性变体,而忽略低活性甚至无活性变体。这种偏向性限制了对完整序列–活性关系的理解。

深度突变扫描方法虽然能够系统分析突变效应,但仍依赖生长或存活等间接筛选信号,导致数据集中在高适应性区域,难以全面刻画蛋白功能景观。

与此同时,蛋白语言模型的发展为蛋白功能预测提供了新的可能。然而,这些模型的性能高度依赖于高质量的大规模序列–活性数据,而这类数据长期以来十分稀缺。

因此,研究人员认为,构建一种能够高效获取全范围序列–活性数据的技术,是推动蛋白工程与AI结合的关键。

方法

研究人员提出的 Sequence Display 技术通过一种创新机制,将蛋白活性直接转化为可测量的DNA信号。

在该系统中,每个蛋白变体序列旁边连接一个记录条形码。当蛋白执行其生物功能时,会通过碱基编辑系统在条形码区域引入突变。突变的频率与蛋白活性直接相关,从而实现“活性记录”。

随后,通过高通量测序同时读取蛋白序列与对应条形码突变信息,即可建立大规模序列–活性对应关系。

在此基础上,研究人员进一步引入蛋白语言模型,对这些数据进行建模,从而构建蛋白活性景观,并预测未测变体的功能表现。

图1:Sequence Display流程示意:用于生成大规模序列–活性数据并推动通用蛋白进化。

结果

单轮实验实现大规模序列–活性数据获取

研究人员首先展示了Sequence Display平台的整体流程。通过在单次实验中同时记录大量变体的活性,该方法避免了传统多轮筛选过程,大幅提升实验效率。

实验结果表明,该平台能够在一次实验中生成高分辨率的序列–活性数据,并覆盖从低活性到高活性的完整功能空间。这一点对于构建全面的蛋白活性景观至关重要。

二、平台准确性与通用性验证

研究人员以UGI和rAPOBEC1为模型蛋白,构建了序列–活性数据集,并通过荧光实验进行验证。

结果显示,条形码突变数量与蛋白活性之间具有良好一致性。无论是在目标突变库还是随机突变库中,该方法均能够准确反映不同变体之间的活性差异。

这一结果证明了Sequence Display在不同蛋白体系中的通用性与可靠性。

图2:用于UGI和rAPOBEC1进化的Sequence Display平台构建。

多条件下的蛋白功能测量能力

研究人员进一步将该技术应用于SlugCas9蛋白,并同时测量其在不同PAM序列条件下的活性。

通过引入多条形码系统,研究人员能够在单次实验中同时评估多个条件下的蛋白活性,从而构建多维序列–功能关系。

实验结果表明,该方法能够准确捕捉不同变体在不同PAM条件下的功能差异,为复杂功能蛋白的研究提供了新工具。

图3:基于Sequence Display实现SlugCas9向扩展PAM识别能力的进化。

大规模数据揭示蛋白功能景观

基于大规模测序数据,研究人员构建了SlugCas9的完整序列–活性数据集。

该数据集不仅包含高活性变体,还涵盖大量中低活性变体,从而提供了对蛋白功能空间的全面描述。通过分析这些数据,研究人员识别出多个具有广谱PAM识别能力的高性能变体。

此外,还发现了一些具有特定PAM偏好的变体,揭示了蛋白功能的多样性与可调控性。

图4:基于蛋白语言模型构建SlugCas9活性景观。

五、结合蛋白语言模型实现精准预测

研究人员利用生成的数据训练蛋白语言模型,从而实现对未测变体活性的预测。

结果表明,该模型在多个评价指标上显著优于传统机器学习方法,能够准确识别高活性候选变体。

此外,通过集成学习策略,进一步提升了预测稳定性,并能够构建连续的蛋白活性景观。

图5:基于集成模型预测的SlugCas9候选变体验证及活性景观构建。

六、加速蛋白进化与功能优化

在模型指导下,研究人员成功筛选出多个功能优化的蛋白变体。例如,改造后的SlugCas9能够识别更广泛的PAM序列,而优化后的氨酰tRNA合成酶则能够识别多种非天然氨基酸。

这些结果表明,Sequence Display不仅能够解析蛋白功能,还能够直接驱动蛋白进化过程。

图6:基于Sequence Display实现氨酰tRNA合成酶(aaRS)向非天然氨基酸(ncAAs)识别能力的进化。

总结

该研究提出了一种全新的蛋白工程技术,实现了从“筛选驱动”向“数据驱动”的转变。

其核心突破在于:通过单次实验生成大规模、全覆盖的序列–活性数据,并结合人工智能实现精准预测与高效优化。

这一框架为蛋白设计、合成生物学以及生物医药开发提供了强有力的工具,有望显著加速功能蛋白的发现与应用。

整理 | DrugOne团队

参考资料

Cheng, L., Zheng, X., Jiang, S.J. et al. Sequence Display enables large-scale sequence–activity datasets for rapid protein evolution. Nat Biotechnol (2026).

https://doi.org/10.1038/s41587-026-03087-3

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档