质谱技术是通过肽段质荷比的匹配来判别蛋白质的种类,其原理就是利用蛋白序列数据库中的多肽质量信息与实际测得的质量信息进行对比而实现鉴定的。因此蛋白质组数据库是研究蛋白质组学的基础,基于质谱技术的蛋白质组学分析或鉴定结果的质量首先取决于数据库的来源与数据库的质量。那么有那些来源的数据库能用于蛋白组学研究呢?
蛋白质组数据库的来源
Uniprot数据库
UniProt是Universal Protein的英文缩写,被认为是收录最广泛、注释信息最全面的蛋白质数据库。它由Swiss-Prot、TrEMBL和PIR-PSD三大数据库的数据整合而成。其数据主要来自于基因组测序项目完成后获得的蛋白质序列,并包含了大量来自文献和人工注释的蛋白质的生物功能的信息。
Swiss-Prot高质量的、手工注释的、非冗余的数据集
TrEMBL该数据集包含高质量的计算分析结果
PIR-PSD是一个综合性的非冗余数据库
获取UniProt相应物种数据库的步骤:
图1 获取UniProt相应物种数据库
NCBI数据库
NCBI是世界上最大的基因数据库。收录了70,000多种生物的核苷酸序列,每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译,主要是科研人员直接提供或来源于大规模基因组测序计划。有两种方式获取蛋白序列,一是来自特定基因组版本的蛋白序列,二是获取所有和关键字或物种相关的蛋白序列。但后者获得的数据库蛋白重复度较高,优先推荐使用UniProt的数据库。
图2 NCBI蛋白数据库获得
基因组de novo拼接
如果仅仅有基因组的数据,可以先对基因组上的基因进行注释,将注释后的结果翻译成蛋白来获取蛋白数据库。图3描述了从基因组到蛋白库的分析过程。
图3 基因组蛋白数据库获得
转录组
如果在公共数据库中没有相应物种的蛋白数据库或记录蛋白条目较少,可以考虑先做转录组学,将转录组学数据翻译成蛋白作为蛋白质组学分析的理论数据库。基于转录组数据的蛋白质组学分析得到的蛋白数据更加全面。
图4 转录组蛋白数据库获得
其他蛋白数据库
Ensembl数据库,开始于一个真核生物基因组注释项目,其侧重于脊椎动物的基因组数据以及注释数据,但也包含了其他生物,如线虫,酵母,拟南芥和水稻等。
phytozome植物数据库,包含了大约有100多种植物基因组数据和其注释的数据,如大豆,油菜,水稻等。
领取专属 10元无门槛券
私享最新 技术干货