
常见参数:
-A ## 打印所有内容,包括特殊字符,如制表符
-n ## 打印出所有行号,-b 参数仅打印非空白行行号
其他:
zcat:可以查看压缩的文本文件 tac:逆向查看
常用参数:
-N:显示行号
-S:单行显示
zless:查看压缩文件
用“/keyword”进行关键词查询
n/N:上下浏览关键词
more:逐页查看,按空格翻页,按回车换行
常见参数:
-l 统计行数
-w 统计字符串数
-c 统计字节数
常见参数:-d 指定分隔符,默认\t;
-f 输出哪几列(字段fields)
cut –d不只可以指定标点符号为分隔符,也可指定字母或者数字等字符为分隔符
常见参数:
-n:按照数值从小到大进行排序
-V:字符串中含有数值时,按照数值从小到大排序
-r:逆向排序
-k:指定按哪一列排序
-t:指定分隔符
只能去除相邻的重复行!,跟sort连用!
常见参数:
-c:统计每个字符串连续出现的行数
常见参数:
-d:指定分隔符
-s:按行合并
常见用法:1. paste file1 file2 2. seq 20 | paste - -
常见用法:
tr ‘<pre>’ ‘<dest>’
常见参数:
-d:删除指定字符
-s:缩减连续重复字符

md5.txt文件:md5sum可以计算文件大小, md5sum -c 文件名称.md5
fasta
fastq
gff/gtf
特征: 两部分, id行和序列行.
列 名称 含义
1 seqname 序列的名字。通常格式染色体ID或是contig ID
2 source 注释的来源。通常是预测软件名或是公共数据库
3 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR…
4 start 起始位置,从1开始计数。
5 end 终止位置。
6 score 这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
7 strand 链的正向与负向,分别用加号+和减号-表示。
8 frame 密码子偏移,可以是0、1或2。
9 attributes
属性,一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号
相隔。
列 名称 含义
1 seqname 序列的名字。通常格式染色体ID或是contig ID
2 source 注释的来源。通常是预测软件名或是公共数据库
3 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR…
4 start 起始位置,从1开始计数。
5 end 终止位置。
6 score 这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
7 strand 链的正向与负向,分别用加号+和减号-表示。“.”表示不需要指定正负链,“?” 表示未知.
8 frame 密码子偏移,可以是0、1或2。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。
9 attributes
属性,必须要有以下两个值:
gene_id value: 表示坐标在基因组上的基因座的唯一的ID。gene_id 与 value 值用空格分
开,如果值为空,则表示没有对应的基因。
transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空
表示没有转录本。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。