$ less -SN Data/example.gtf | grep 'gene'
$ less -SN Data/example.gtf | grep -w 'gene' #按照单词gene抓取区别看 pic3
$ less -SN Data/example.gtf | grep -w -e 'gene' -e 'exon' #多个关键词的抓取 加上-ee
Mar402 09:29:52 ~
$ vim file #创建一个文件,把所有要抓取的关键词都写里,目的和grep -w -e ' ' 相同,对于多个关键词抓取更加方便
Mar402 09:33:08 ~
$ cat file
gene
exon
UTR
Mar402 09:33:12 ~
$ cat Data/example.gtf | grep -w -f file #注意这里是grep -w -f 文件名
$ cat Data/example.fa | grep '^TTTTTTT' -n #查看行开头有TTTTTTT的 并标注行数
48680:TTTTTTTATTGATATCCCCCGTGAGCAGGCATTACTGCGCGAGCACGAGGTGATTGTCTTTCAGCATCCT
$ cat Data/example.fa | grep 'TTTTTTT$' -n #查看行尾有TTTTTTT的 并标注行数
29399:TTTTGGTGAAAATTTCACAAGTGGAGTCGGTCTCAGGCTGGATGCATTTGGACGTGGCGTGATTTTTTTT
32953:AGAGCCGATTCTCGGCCTTGATGTGCTACAAACCGCCACGCGGGGTGAATGGTATAAGGGAGATTTTTTT
34762:CCTGTTACTGGCAGGTTGGCACAAAGAATAGGCGAATTAAGATTATTTTTACTTTCAGTCACTTTTTTTT
62693:TACGGATATTCAGGCTACTTTAATAGGGACAGTGGCCTTCATAGCCAGACCTATTGGAGGTGGTTTTTTT
64810:ATGCCTTTTTTCAAAGCAAATGATGTGGCTTTGGATAGAAGGTTTACGTTGATCTTATCAAAGTTTTTTT
64859:ATGCCTTTTTTCAAAGCAAATGATGTGGCTTTGGATAGAAGGTTTACGTTGATCTTATCAAAGTTTTTTT
$ cat Data/example.fa | grep 'TTT.GGG' -n #抓取含有TTT任意单字符GGG
147:ATGCCAGATTTTTTCTCCTTCATTAACAGCGTCCTTTGGGGATCGGTAATGATTTACCTGCTCTTCGGCG
220:CCACTGACTGGATCAACATTAACAGCGATAACGACAATAAACGCTGCGTCTCAAAAATCACCTTTTCGGG
364:GCGAATTTTTTGGGCTAACAAAACCGGCTTAA
715:ACACTGCCGGACGGCGTCCATTGTTGATTGGCAGCTTTGCCATGATGACGCTGGCGCTGGCGGTTTTGGG
749:AGAACAGCCGCGCGTGATTATCGCCGGATTCGGTCGTTTTGGGCAGATTACCGGACGTTTACTGCTCTCC
$ cat Data/example.fa | grep '^T\?GGGG' -n #抓取 开头有T(有一个或者没有)后面有GGGGG,注意要加\ (斜线是一种转译) 或者另一种输入方法
$ cat Data/example.fa | grep -E '^T?GGGG' -n #加上-E 也可以
$ cat Data/example.fa | grep -E '^TTT[AC]GGG' -n #抓取 开头TTT中间是A或C后面是GGG的
14224:TTTAGGGCAGCCAGTGGCACCGAAAACAGCTTTCGTTTTGTATGATGATCAGAAGAGCATTCAGGATTCG
34601:TTTCGGGGAAGGATATAGAGATTTAAGCAAGCATTTATTTGGAATGTATTTTTCGTTCGACCTTTGCTTA
59893:TTTCGGGATGCTCATTATCTCCGGCAATCCCGGTGATCGGCGCTTATTATCCCAGCTGGTTTTTCTGCGC
$ cat Data/example.fa | grep -E 'AATTT|TATATA' -n # | 是或的意思与前面 grep -e '' -e '' 的意思一样 抓取有AATTT或者有TATATA的
Mar402 10:12:55 ~
1.$ cat Data/example.gtf | grep -w -c 'gene'
20
Mar402 10:17:00 ~
2.$ cat Data/example.gtf | grep -w 'exon' -v -c
126
Mar402 10:17:51 ~
3.$ cat Data/example.gtf | grep -E 'CDS|UTR' | less -NS
Mar402 10:20:03 ~
4.$ cat Data/example.fq | grep '@' -c
1502
Mar402 10:25:30 ~
5.$ cat Data/example.fq | grep '^@' -c
1006
Mar402 10:25:36 ~
$ wc -l Data/example.fq
4000 Data/example.fq
#一共有4000行,一个基因四行通过^@抓取的应有1000个,但多出来了6个,之后是怎么将这六个找出。
Mar402 10:27:54 ~
$ less -SN Data/example.fq #通过查看发现基因都是有@ERR329499的
Mar402 10:28:07 ~
$ cat Data/example.fq | grep '^@' | grep -v '@ERR329499' -n # 将不是@ERR329499的行输出,即可找到
267:@;;@=BBBBBB??=?DD==8CBB@=>BBA=8=@@;DBDBBBEEBEGGGDBEEBBEGDGG@4.+?88BB<?
272:@HHHFHGHEHHGHHD;@EDFBDBBGGGDG?GGEBEGEGGGGGEBE<F8F<>A>A>GGAGA??>A######
429:@E<?GGGGBGGBGBDEED<DE<DEBDG@GE>>B;;BEEB=??2>CACAC?>B??????CE??E8?G@DD#
620:@BGDGBGEGEFGGHHHGHGH=GGGGHHHHHHDHFHHGDGHHHHHHHHHHHHDGDHHGHHHHHHHFHGHGH
633:@@;@=BDDBDDGE4GG?FGGG<GBDEEDEEHGHHFHHHHHHHFHHGGGGGHHHFHHHGHHHEHHHEGEGG
831:@GBGG?CEEDEB:E8ED>:EBD=@D6=5=<AA>A1CC>E###############################
6.Mar402 10:38:04 ~
$ grep 'TATA[AT]A[AT].' -r Data/ -n
附加题
Mar402 10:42:50 ~
$ less -SN Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3 | grep -v '#' | cut -f 3 | sort | uniq -c
290 biological_region
1568 CDS
1 chromosome
4285 exon
222 five_prime_UTR
47 gene
258 lnc_RNA
149 mRNA
7 ncRNA
92 ncRNA_gene
382 pseudogene
382 pseudogenic_transcript
3 snoRNA
17 snRNA
196 three_prime_UTR
----来自生信技能树----
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。