写在前面
《-零命令行-生信下游数据分析》的第一帖主题,定为序列提取。因为序列提取,可以说是目前最常见的生信下游数据分析需求,其主要见于场景:
1.物种基因组已公布,但没有对应的数据库,而我只是需要某个染色体的一个区段
2.手上有无参考转录组组装结果,需要从其中提取出一些我感兴趣的基因的序列,如某几个差异表达基因
场景有很多。而目的只有一个,即省时省事地得到我要的序列。本篇推文,可以让任何人在短时间内掌握并完成自己需要的序列提取,几乎没有学习成本。
准备数据
序列文件,Fasta格式(任何Fasta格式的序列文件,如genome.fa, unigenes.fa, proteins.fa, cds.fa....)
序列ID列表,或带需要的区间坐标信息(普通的tab分隔的文本文件)
如果是要提取某个序列的某个区段,那么可能ID后面加上区段信息,如果需要对提取出来的区段命名,则在ID前面添加信息
开始提取
1.首先打开TBtools,并选择对应的工具Amazing Fasta Extractor
2.设置序列库文件
一般TBtools提供两种数据输入方式 ,推荐直接使用鼠标拖拽
3. 提取序列
如果一次提取少量序列,只是快速使用,那么无需设置输出文件,直接勾选,使提取的序列显示在对话框,用于文本复制与黏贴
如果序列较多,或者要直接保存输出到文件中,那么可以设置一个输出文件
同样的方式 ,如果是要提取某个序列区段
4. 其他需求
关于序列提取,整体上,以上的操作应该是已经满足了大部分人的需求,当然还有其他需求,剩下的几个选项,可自行摸索
或者,建议加入TBtools使用交流群- QQ群,与其他在科研工作中使用TBtools的朋友交流
领取专属 10元无门槛券
私享最新 技术干货