编译 | 波菜叶
机器学习算法在计算蛋白质设计中的应用最近取得了许多成就,例如从氨基酸序列预测3D结构以及可以折叠成所需3D结构的蛋白质序列的逆向设计。然而,从头蛋白质结构生成——即生成具有所需特性的蛋白质结构——仍然是一项艰巨的任务。
巨大的蛋白质分子空间,以及功能性蛋白质仅由所有可能的蛋白质分子的一小部分组成的事实,使得有效识别序列、结构和功能(或性质)之间的关系变得困难。
虽然深度生成模型促进了蛋白质结构的生成,但仍然存在一些挑战,例如完整蛋白质复杂性的生成、具有不同设计约束的条件采样而不需要重新训练模型,以及随着复杂性的增加缺乏合理的缩放行为 。
在最近的一项工作中,Gevorg Grigoryan 团队开发了一种深度生成模型(基于图像常用的改进扩散模型)来克服上述挑战,使得生成具有各种用户定义的约束的物理合理且可设计的蛋白质结构成为可能。
开发的框架——Chroma——包含三个关键模型设计,用于实现高质量的蛋白质生成。
第一个是使用扩散模型,该模型可以学习逆转相关噪声过程以匹配天然蛋白质的距离统计。此外,受多体物理学的力计算方法的启发,作者设计了一种神经网络(NN)架构,该架构使用随机远程图连接和连接统计来更新分子坐标。
值得一提的是,这种神经网络设计允许计算以半二次方的方式缩放残基数量。最后,Chroma 将低温采样方法与改进的采样骨架质量相结合,这为选择蛋白质设计约束提供了更大的灵活性。
作者表明,Chroma 可以通过适应许多外部约束来生成大蛋白质分子,包括拉丁字母或阿拉伯数字的对称性、形状、语义和几何形状。更重要的是,实验验证表明设计的蛋白质具有结构准确性和良好的特性。总体而言,Chroma 揭示了生成蛋白质模型在蛋白质设计中有效编程属性和功能的能力。
领取专属 10元无门槛券
私享最新 技术干货