练习题讲解:之前一个比较难的练习题!
md5文件:
确保下载的文件和公司的文件是否相同 md5验证
解题思路:第一列代码和第二列文件分开处理
less -NS Data/md5.txt |cut -f 1
less -NS Data/md5.txt |cut -f 1 |tr ';' '\n' # 把;分隔符替换为回车
less -NS Data/md5.txt |cut -f 1 |tr ';' '\n' >tmp1 #暂时存为tmp1文件
less -NS Data/md5.txt |cut -f 2 |tr ';' '\n' >tmp2 #同理生成tmp2文件
paste tmp1 tmp2 >tmp3
cat tmp3
fasta:一种基于文本用于表示核酸序列或多肽序列的格式。缩写为fa
特征:两部分,id行和序列行
id行:以>开头,有时候会包含注释信息,如chr1、chr2…
序列行:一个字母表示一个碱基/氨基酸 ,ATCGN或20种氨基酸
fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式
fastq文件中,一个序列通常由四行组成:
基因组注释文件,总共有9列
第一列 seqname 序列的名字,通常格式染色体ID或contig ID
第二列 source 注释的来源,通常是预测软件名或是公共数据库
第三列 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR...
第四列 start 起始位置,从1开始计数
第五列 end 终止位置
第六列 score 这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用"."代替
第七列 strand 链的正向与负向,分别用+和-表示
第八列 frame 密码子偏移,可以是0、1或2
第九列 attributes 属性,一个包含众多属性的列表,格式为“标签=值(tag=value)”,不同属性之间以分号相隔
三级结构:
第一级gene
第二级transcript
基因注释文件。总共有9列,分别为:
seqname 序列的名字
source 注释的来源
feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR...
start 起始位置
end 终止位置
score .
strand 链的正向与负向
frame
attributes:属性,必须要有以下两个值:
一定要有gene_id
transcript_id
实际上为二级结构
只关注基因水平和转录本水平
补充命令:让列对齐 column -t
less -NS Data/example.gtf |column -t |less -S
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。