首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Nature子刊】比肩诺奖!生物界ChatGP首次实现从零合成全新蛋白

本文为转化医学网原创,转载请注明出处

作者:Jevin

导读:人工智能的应用,已经极大地加速了蛋白质工程的研究。

科学家们采用类似ChatGPT的蛋白质工程深度学习语言模型Progen,首次实现了AI预测蛋白质的合成。这些蛋白质不仅与已知的完全不同,相似度最低的甚至只有31.4%,但和天然蛋白一样有效。现在,该研究已经正式发表于《Nature Biotechnology》

https://www.nature.com/articles/s41587-022-01618-2

深度学习语言模型ProGen

01

深度学习语言模型在各种生物技术应用中显示出远大的前景,包括蛋白质设计和工程。作为深度神经网络的一种,条件语言模型不仅可以生成语义和语法正确且新颖多样的自然语言文本,而且还可以利用输入控制标签来指导风格、主题等等。类似的,研究人员开发出了今天的主角——ProGen,一个12亿参数的条件蛋白质语言模型。

科学家采用ProGen(深度学习语言模型),可以在大型蛋白质家族中生成具有可预测功能的蛋白质序列。该模型使用指定蛋白质属性的控制标签进行增强。ProGen可以进一步微调为精选的序列和标签,以提高具有足够同源样品的家族蛋白质的可控生成性能。具体来说,基于Transformer架构的ProGen通过自注意机制来模拟残基的相互作用,并且可以根据输入控制标签生成不同的跨蛋白质家族的人工蛋白质序列。

AI生成的新蛋白质也可以杀死细菌

02

为了创建这个模型,研究人员喂了2.8亿种不同蛋白质的氨基酸序列,并让它消化了几周的时间。接着,他们又用五个溶菌酶家族的56,000个序列以及关于这些蛋白质的信息,对模型进行了微调。Progen的算法与ChatGPT背后的模型GPT3.5类似,它学习到了蛋白质中氨基酸排序的规律,以及它们与蛋白结构和功能的关系。

很快,模型就生成了一百万个序列。根据与天然蛋白质序列的相似程度,以及氨基酸“语法”和“语义”的自然程度,研究人员选择了100个进行测试。其中,有66个产生了与消灭蛋清和唾液中细菌的天然蛋白质类似的化学反应。也就是说,这些由AI生成的新蛋白质也可以杀死细菌。

序列不同 活性与结构相当

03

为了研究更进一步,研究人员选择了反应最强烈的五种蛋白质,并将它们加入到大肠杆菌的样本中。其中,有两种人工酶能够分解细菌的细胞壁。通过与鸡蛋白溶菌酶(HEWL)进行比较可以发现,它们的活性与HEWL相当。

随后,研究人员又用X射线进行了成像。尽管人工酶的氨基酸序列与现有的蛋白质有高达30%的差异,二者之间也只有18%是相同的,但它们的形状却与自然界的蛋白质相差无几,而且功能也可以与之媲美。除此之外,对于高度进化的天然蛋白质来说,可能只需一个小小突变就会让它停止工作。但研究人员在另一轮筛选中发现,在AI生成的酶中,即使只有31.4%的序列与已知蛋白质相同,也能表现出相当的活性以及类似的结构。

参考资料:

https://www.nature.com/articles/s41587-022-01618-2

注:本文旨在介绍医学研究进展,不能作为治疗方案参考。如需获得健康指导,请至正规医院就诊。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230208A0622E00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券