对于许多做非模式生物的同学来说,没有现成的功能注释可用是非常难受的一件事。而blast2go虽然可以一步到位帮你完成功能注释,但它是收费的。这时,我们可以使用eggnog-mapper进行功能注释。
eggnog-mapper现在已经更新到了V2版本,需要在Python2.7环境下运行,并保证有超过40G的存储空间存放数据库。
## 下载eggnog-mapper V2版本
git clone https://github.com/eggnogdb/eggnog-mapper.git
目前,eggNOG数据库已经更新到了5.0版本,收集了更为全面的物种和更多的蛋白序列信息,在进行注释前我们需要先把数据库下载下来。
## 下载
python ./download_eggnog_data.py
直接使用命令下载数据库的话速度非常慢,我们可以使用迅雷或者其他工具下载。
下载地址分别为:
http://eggnogdb.embl.de/download/emapperdb-5.0.0/eggnog.db.gz
http://eggnogdb.embl.de/download/emapperdb-5.0.0/eggnog_proteins.dmnd.gz
下载好后移至eggnog-mapper安装目录的data文件夹下并解压。
解压好之后就可以进行功能注释了。
## 功能注释
python emapper.py -i pep.fa --output out -m diamond --cpu 12
-i:输入蛋白序列。
--output:输出文件前缀。
-m diamond:使用DIAMOND进行序列比对。
--cpu:使用的线程数。
使用DIAMOND进行比对的速度非常快。30万条序列用12个线程注释花了5个多小时。
注释完成后会输出两个文件,emapper.annotations为后缀的文件记录了注释结果。
文件一共有22列:
2. seed eggNOG ortholog 在eggNOG中比对到的最佳结果
大家可以根据自己的需求提取对应的信息。
参考资料:
https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2
https://www.jianshu.com/p/e646c0fa6443