简介 看一篇发表在NC上的使用DL来预测糖类结合位点(DeepGlycanSite)的文章。
其文章思路比较清晰,为
构建糖类蛋白质复合物数据集 构建神经网络进行学习以及训练 横向与其他口袋预测模型进行比较 对特定的输入糖类进行预测 实验验证 详解 这里着重查看复合物数据集构建,以及神经网络构建阶段。
数据集 作者整理了一个大型的糖类-蛋白质复合物数据集,涉及约8100种蛋白质和超过1700种碳水化合物。
对于分辨率而言,分辨率优于4Å的碳水化合物-蛋白质复合物的X射线和电子显微镜结构。 对于蛋白质而言,只有距离糖类化合物在4Å以内的残基被标注为糖类化合物结合位点。 对于时间而言,获取了2023年1月1日之前发布的结构。 对于糖基化的蛋白质而言,去除掉。 对于测试集而言,使用2021年以后发布且分辨率优于3Å的复合物构建。 为了降低bias:训练集中,排除了相同位点与相同糖类化合物结合的cases。对于测试集,排除了与训练集(或验证集)序列同一性超过95%的蛋白质。进一步控制测试集中蛋白质序列同一性为30%。 数据集下载地址:https://github.com/xichengeva/DeepGlycanSite/tree/main/datasets
网络结构 1. 图表示的特征 作者利用无向图 [G = (V, E)] 来表示蛋白质和糖类。
蛋白质:每个氨基酸分配一个节点,并在蛋白质结构中两个相邻残基的8Å大原子距离阈值内连接一个边。每个节点的位置由每个残基的质心定义。节点特征包括残基类型、嵌入的进化信息和残基内部几何特征。采用ESM-2模型(esm2_t33_650M_UR50D)根据给定蛋白质的氨基酸序列生成1280维嵌入进化信息。 糖类化合物:节点和边分别代表原子和键。引入了512维的分子特征。在特征化之前,使用Rdkit来处理的糖类化合物。节点特征包括atom symbol, degree, hybridization type, formal charge, number of radical electrons, aromaticity、total number of hydrogens binding on it和chiral property。 边的特征包括bond type, conjugation, ring inclusion and stereo configuration。 2. 模型框架 ReceptorNet:受Vector-Scalar Interactive Graph Neural Network (ViSNet)启发,构建了一个基于几何的等变图神经网络,用于解析氨基酸水平的表示。 Transformer:将这些输出graph合并,以确定每个氨基酸的糖类化合物结合概率。 3. 下载地址 模型:https://github.com/xichengeva/DeepGlycanSite
数据集:https://github.com/xichengeva/DeepGlycanSite/tree/main/datasets
总结 DeepGlycanSite是一个强大的结合位点预测器,在不同糖类化合物结合位点类别中都表现出良好的性能。