作者:WEE
来源:科研小助手公众号
今天科研小助手为大家介绍一个蛋白质的数据库UniProt,做质谱等蛋白质组的童鞋对这个数据库可能比较熟悉,不过对于做基础科研的小伙伴,这个数据库同样非常实用!
UniProt(Universal Protein)整合了三个老字号数据库:Swiss-Prot、TrEMBL和PIR-PSD的数据。是目前信息最丰富、资源最广的免费蛋白质数据库(没有之一!)。
首先看一下这个数据库的首页:
从首页我们可以看到UniProt包括五大块:UniProtKB、UniRef、UniParc、Proteomes和Supporting data。今天科研小助手着重为大家介绍的是UniProtKB部分。这部分又包含两部分数据:Swiss-Prot和TrEMBL。这两个有什么区别呢?
Swiss-Prot是经过人工检查和校验的条目,是一个高质量的、人工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过的计算分析结果。截止到2017年10月17日,已囊括了555594条记录!
TrEMBL是计算机自动注释的、未经人工校验的条目,该数据主要是利用计算机对大量基因组数据流进行分析注释。截止到2017年10月17日,已囊括了90050711条记录!
从以上数据我们可以看出来,这个数据库的量还是非常大的!那么接下来就让科研小助手带大家结合实例看一下怎么利用这个数据吧!
我们以人的EGFR为例来查询,首先在检索框中输入EGFR Human(当然你不加种属也可以,只不过有的时候找起来麻烦),结果如下:
点前面的Entry号P00533进入EGFR的介绍页面:
最顶部是EGFR的基本信息:蛋白全称、对应的基因名字、物种和状态。基本信息下面接着就是对EGFR功能的概括性介绍,这个对于快速了解该蛋白的功能还是非常有用的。再就是大概或许可以参考着写入文章中的Introduction部分。
接着往下拉,还有一堆的功能介绍,GO分析啥的~自己去研究,在这里科研小助手就不多做介绍了。拉到Subcellular location部分可以看到EGFR主要定位于细胞内的膜结构上,黄色部分是人工注释上去的,也就是说可靠性非常高。蓝色代表是计算机自动注释的。可以看出来,EGFR研究比较透彻,定位也比较清楚,基本都是人工注释的。
再往下就到了EGFR的拓扑结构区,在这一部分你就可以清楚的看到EGFR的哪些序列是胞外段,哪些是跨膜区,哪些是胞内段了!这个可以作为你研究其不同功能段时候的截短作为参考!
之前科研小助手在质粒构建三部曲『质粒构建:从入门到精通之高手进阶』『质粒构建:从入门到精通之上下求索』『质粒构建:从入门到精通之初窥门径』中提到过蛋白的信号肽Signal peptide也可以在这里查询到!
再向下还有一些氨基酸修饰的信息,做表观遗传的可以关注一下,后面还有相互作用蛋白的信息:
继续向下我们可以看到,EGFR有4个isoform,那么做过表达到底是应该用哪个转录本呢?UniProt给了你建议,一般第一个展示的isoform就是该蛋白的经典转录本!这里还标注了蛋白的分子量,再也不用傻傻的把序列复制到计算网站上去计算分子量了!
另外在这里,科研小助手再送给懒人一个估算蛋白分子量的公式:CDS长度÷3×110或者氨基酸长度×110。利用这个公式就可以大体估算一个蛋白的分子量了。比如EGFR是1210 Aa,那么用公式算出来的分子量是133100,与实际分子量134277相差了约1 kDa,还是在可以接受范围内的!
好了,今天就讲到这里了。信息量还是蛮大的,这个数据库的功能也是非常的强大的,大家可以自己慢慢去探索。如果你觉得有所帮助,烦请分享到朋友圈支持我们一下,科研小助手后续会分享更多的干货给到大家!借用某宝的口号就是我们希望“让天下没有难做的科研”!
点这里查看sci文章润色服务
点这里领我们整理的软件库
点这里看R界传奇老司机直播录像
点这里进免费免安装的文献下载神器
领取专属 10元无门槛券
私享最新 技术干货