近日,谷歌旗下人工智能研究公司DeepMind宣布,推出的 AlphaFold 可以仅根据基因代码预测生成蛋白质的3D结构。
这项新的研究表明人工智能涉足蛋白质折叠领域的成功,有非常重要的研究价值。
以下为译文
今天我们很高兴分享 DeepMind 在展示人工智能研究如何推动和加速新科学发现方面的第一个重要里程碑。 DeepMind 以一种强有力的跨学科方法来完成我们的工作,它汇集了来自结构生物学、物理学和机器学习领域的专家,应用尖端技术仅根据其基因序列来预测蛋白质的 3D 结构。
我们的系统 AlphaFold 是我们过去两年来一直致力于研究的,它建立在利用大量基因组数据预测蛋白质结构的多年前期研究基础上。 AlphaFold 生成的蛋白质 3D 模型比之前的任何模型都要精确得多——在生物学的核心挑战之一上取得重大进展。
蛋白质折叠问题是什么?
蛋白质是维持生命所必需的庞大而复杂的分子。 我们身体执行的几乎所有功能——收缩肌肉、感知光线或将食物变成能量——都可以追溯到一种或多种蛋白质,以及它们如何运动和变化。 这些被称为基因的蛋白质的配方编码在我们的 DNA 中。
任何给定的蛋白质能做什么都取决于它独特的 3D 结构。 例如,组成我们免疫系统的抗体蛋白是 ‘Y 形 ’ 的,类似于独特的钩子。 通过锁定病毒和细菌,抗体蛋白能够检测和标记致病微生物进行灭绝。 类似地,胶原蛋白形状像绳索,在软骨、韧带、骨骼和皮肤之间传递张力。 其他类型的蛋白质包括 CRISPR 和 Cas9,它们像剪刀一样起作用并剪切和粘贴 DNA;抗冻蛋白,其 3D 结构允许它们与冰晶结合并防止生物体冻结;以及像程序装配线一样起作用的核糖体,它们帮助自己构建蛋白质。
但纯粹从其基因序列中找出蛋白质的 3D 形状是一项复杂的任务,几十年来科学家们一直发现它具有挑战性。 面临的挑战是,DNA 只包含一个蛋白质的结构单元的序列的信息,称为氨基酸残基,形成长链。 预测这些链将如何折叠成蛋白质错综复杂的 3D 结构就是所谓的“蛋白质折叠问题”。
蛋白质越大,建模就越复杂和困难,因为要考虑的氨基酸之间有更多的相互作用。 正如 Levinthal 的悖论所指出的那样,在达到正确的 3D 结构之前,列举一个典型蛋白质的所有可能构型需要比宇宙年龄更长的时间。
为什么蛋白质折叠很重要?
预测蛋白质形状的能力对科学家是有用的,因为它对于理解其在体内的作用,以及诊断和治疗被认为是由错误折叠的蛋白质引起的疾病(如阿尔茨海默氏症、帕金森氏症、亨廷顿舞蹈病和囊性纤维化)至关重要。
我们对它如何提高我们对身体及其工作原理的理解感到特别兴奋,从而使科学家能够更有效地设计出新的、有效的治疗疾病的方法。 随着我们通过模拟和模型获得更多关于蛋白质形状以及它们如何运作的知识,它在药物发现中开辟了新的潜力,同时也降低了与实验相关的成本。 这将最终改善全世界数百万患者的生活质量。
对蛋白质折叠的理解也将有助于蛋白质设计,这可以释放大量的益处。 例如,可生物降解酶的进步——可以通过蛋白质设计实现——可以帮助管理像塑料和石油这样的污染物,帮助我们以对我们的环境更友好的方式分解废物。 事实上,研究人员已经开始工程菌分泌蛋白质,这些蛋白质会使废物生物降解,并且更容易加工。
为了促进研究和衡量提高预测准确性的最新方法的进展,1994 年建立了一个两年一度的全球竞赛,称为蛋白质结构预测技术关键评估 (CASP) 的社区范围实验,并已成为评估技术的金标准。
AI 怎样才能有所作为?
在过去的五十年中,科学家们已经能够利用冷冻电子显微镜、核磁共振或 X 射线晶体学等实验技术在实验室中确定蛋白质的形状,但每种方法都依赖于大量的试错,这可能需要数年时间,每个结构要花费数万美元。 这就是为什么生物学家们转向 AI 方法,以此作为困难蛋白这一漫长而费力过程的替代品。
幸运的是,得益于基因测序成本的快速降低,基因组学领域的数据相当丰富。 因此,依赖于基因组数据的预测问题的深度学习方法在过去几年变得越来越流行。 DeepMind 在这个问题上的工作产生了 AlphaFold,这是我们今年提交给 CASP 的。 我们很自豪能成为 CASP 组织者所谓的“计算方法预测蛋白质结构能力的前所未有的进步”的一部分,在进入的团队中排名第一(我们的条目是 7d)。
我们的团队专注于从头开始建模目标形状的难题,而不使用以前解决的蛋白质作为模板。 我们在预测蛋白质结构的物理性质时取得了很高的准确度,然后用两种截然不同的方法构建了完整蛋白质结构的预测。
利用神经网络预测物理性质
这两种方法都依赖于深层神经网络,这些神经网络经过训练可以从其基因序列中预测蛋白质的性质。 我们网络预测的性质是:(a) 氨基酸对之间的距离和 (b) 连接这些氨基酸的化学键之间的角度。 第一个发展是对常用技术的进步,这些技术可以估计氨基酸对是否彼此靠近。
我们训练了一个神经网络来预测蛋白质中每对残基之间距离的单独分布。 然后将这些概率合并成一个分数,用来估计一个提议的蛋白质结构有多精确。 我们还训练了一个单独的神经网络,它使用所有的距离来估计所提出的结构与正确答案的接近程度。
构建蛋白质结构预测的新方法
利用这些评分函数,我们能够搜索蛋白质景观以找到与我们的预测相匹配的结构。 我们的第一种方法建立在结构生物学中常用的技术基础上,用新的蛋白质片段反复替换一段蛋白质结构。 我们训练了一个生成神经网络来发明新的片段,这些片段被用来不断提高所提出的蛋白质结构的得分。
第二种方法通过梯度下降来优化分数——这是机器学习中常用的一种数学技术,用于进行小的、渐进式的改进——从而得到高度精确的结构。 这项技术应用于整个蛋白质链,而不是组装前必须分开折叠的片段,降低了预测过程的复杂性。
接下来会发生什么?
我们首次进军蛋白质折叠的成功,表明了机器学习系统如何能够整合多种信息来源,帮助科学家以快速的速度为复杂的问题提出创造性的解决方案。 正如我们已经看到 AI 如何通过 AlphaGo 和 AlphaZero 这样的系统帮助人们掌握复杂的游戏一样,我们同样希望有一天,AI 的突破也能帮助我们掌握基本的科学问题。
看到这些蛋白质折叠进展的早期迹象令人兴奋,展示了 AI 用于科学发现的效用。 尽管在我们能够对治疗疾病、管理环境等产生可量化的影响之前还有很多工作要做,但我们知道潜力是巨大的。 有了一个专注于研究机器学习如何推进科学世界的专业团队,我们期待看到我们的技术能够有所作为的多种方式。
领取专属 10元无门槛券
私享最新 技术干货