对于大批量的数据下载,手动下载无疑是繁琐而又痛苦的,若不巧再碰上网站不稳定,小圆圈转半天就是不出来,此刻的人生必定是绝望的。
对此,小编深有体会,只70多个基因,就用了三四个小时来下载,费时又费力。还好,昨天Boss安利了一个python脚本,能够快速的从NCBI上搜索并下载所需的序列,再也不用这么费劲啦!今天呢小编就赶紧来跟大家分享一下,希望可以也能帮到大家!
NCBI批量搜索、下载序列
脚本代码:
帮助文档:
使用说明:
先来看一个示例:
该命令是从NCBI的蛋白质数据库下载所有黄精属中叶绿体上的PsaA基因的蛋白序列,输出格式为fasta。
-t:后面跟的是搜索条件,用双引号引起来。我们可以用布尔运算符和索引构建器更精确查找内容。先来介绍下布尔运算符,布尔运算符提供了一种生成精确查询的方法,可以产生定义良好的结果集。布尔运算符主要有3个,分别是AND、OR和NOT。它们的工作原理如下:
AND运算符是必须大写的,而OR和NOT不是必须的,但是建议三种运算符都用大写。
布尔运算符的运算顺序都是从左往右,例如:
表示查询除人类外的哺乳类动物中的promoters或response elements。而使用括号可以改变运算顺序,例如:
表示查询除人类和老鼠外的哺乳类动物中的promoters或response elements。
"[ ]"里的内容是索引构建器,可以解释前面搜索词的类型,如示例中的[Organism]表示前面的Polygonatum是一个有机体。下面是一些其它示例:
此外,还能进行范围的搜索,例如序列长度和发表日期。
-d:后面跟搜索数据库,nucleotide 或 protein,默认 nucleotide。
-r:后面跟输出格式,fasta 或 gb(genbank),默认gb。
-o:后面跟输出目录。
-n:后面跟输出文件名前缀。
从genbank提取序列
脚本代码:
帮助文档:
注意:-m 后输入的是一目录,该目录下可以有多个 genbank 文件,程序会批量读取。-i 后跟需提取的基因名称列表,格式如下:
genbank转gff3
最后一个脚本 bp_genbank2gff3.pl,此脚本可以根据 genbank 文件生成 gff3 文件,由Bioperl提供,安装并配置过Bioperl就可以直接使用。用法也很简单,bp_genbank2gff3.pl 后跟genbank 文件就可以啦!
好啦,以上三个脚本就是全部了,希望对小伙伴们有用 O(∩_∩)O~~
科技服务事业部 文案
图片源于网络 侵删
领取专属 10元无门槛券
私享最新 技术干货