前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Linux -文本处理 grep

Linux -文本处理 grep

原创
作者头像
用户10412487
发布2023-03-29 10:45:42
7890
发布2023-03-29 10:45:42
举报
文章被收录于专栏:生信技能树-R

grep (pic1,2)

pic1
pic1
pic2
pic2

抓取单词 grep -w

代码语言:txt
复制
$ less -SN Data/example.gtf | grep 'gene'
$ less -SN Data/example.gtf | grep -w 'gene' #按照单词gene抓取区别看 pic3
$ less -SN Data/example.gtf | grep -w -e 'gene' -e 'exon' #多个关键词的抓取 加上-ee

Mar402 09:29:52 ~
$ vim file #创建一个文件,把所有要抓取的关键词都写里,目的和grep -w -e ' ' 相同,对于多个关键词抓取更加方便
Mar402 09:33:08 ~
$ cat file
gene
exon
UTR
Mar402 09:33:12 ~
$ cat Data/example.gtf | grep -w -f file #注意这里是grep -w -f 文件名
pic3
pic3

正则表达式 pic4

pic4
pic4
代码语言:txt
复制
$ cat Data/example.fa | grep '^TTTTTTT' -n #查看行开头有TTTTTTT的 并标注行数
48680:TTTTTTTATTGATATCCCCCGTGAGCAGGCATTACTGCGCGAGCACGAGGTGATTGTCTTTCAGCATCCT

$ cat Data/example.fa | grep 'TTTTTTT$' -n #查看行尾有TTTTTTT的 并标注行数
29399:TTTTGGTGAAAATTTCACAAGTGGAGTCGGTCTCAGGCTGGATGCATTTGGACGTGGCGTGATTTTTTTT
32953:AGAGCCGATTCTCGGCCTTGATGTGCTACAAACCGCCACGCGGGGTGAATGGTATAAGGGAGATTTTTTT
34762:CCTGTTACTGGCAGGTTGGCACAAAGAATAGGCGAATTAAGATTATTTTTACTTTCAGTCACTTTTTTTT
62693:TACGGATATTCAGGCTACTTTAATAGGGACAGTGGCCTTCATAGCCAGACCTATTGGAGGTGGTTTTTTT
64810:ATGCCTTTTTTCAAAGCAAATGATGTGGCTTTGGATAGAAGGTTTACGTTGATCTTATCAAAGTTTTTTT
64859:ATGCCTTTTTTCAAAGCAAATGATGTGGCTTTGGATAGAAGGTTTACGTTGATCTTATCAAAGTTTTTTT
$ cat Data/example.fa | grep 'TTT.GGG' -n #抓取含有TTT任意单字符GGG
147:ATGCCAGATTTTTTCTCCTTCATTAACAGCGTCCTTTGGGGATCGGTAATGATTTACCTGCTCTTCGGCG
220:CCACTGACTGGATCAACATTAACAGCGATAACGACAATAAACGCTGCGTCTCAAAAATCACCTTTTCGGG
364:GCGAATTTTTTGGGCTAACAAAACCGGCTTAA
715:ACACTGCCGGACGGCGTCCATTGTTGATTGGCAGCTTTGCCATGATGACGCTGGCGCTGGCGGTTTTGGG
749:AGAACAGCCGCGCGTGATTATCGCCGGATTCGGTCGTTTTGGGCAGATTACCGGACGTTTACTGCTCTCC

$ cat Data/example.fa | grep '^T\?GGGG' -n #抓取 开头有T(有一个或者没有)后面有GGGGG,注意要加\ (斜线是一种转译) 或者另一种输入方法
$ cat Data/example.fa | grep -E '^T?GGGG' -n #加上-E 也可以

$ cat Data/example.fa | grep -E '^TTT[AC]GGG' -n #抓取 开头TTT中间是A或C后面是GGG的
14224:TTTAGGGCAGCCAGTGGCACCGAAAACAGCTTTCGTTTTGTATGATGATCAGAAGAGCATTCAGGATTCG
34601:TTTCGGGGAAGGATATAGAGATTTAAGCAAGCATTTATTTGGAATGTATTTTTCGTTCGACCTTTGCTTA
59893:TTTCGGGATGCTCATTATCTCCGGCAATCCCGGTGATCGGCGCTTATTATCCCAGCTGGTTTTTCTGCGC

$ cat Data/example.fa | grep -E 'AATTT|TATATA' -n # | 是或的意思与前面 grep -e '' -e '' 的意思一样 抓取有AATTT或者有TATATA的

练习1

练习1
练习1
代码语言:txt
复制
Mar402 10:12:55 ~
1.$ cat Data/example.gtf | grep -w -c 'gene' 
20
Mar402 10:17:00 ~
2.$ cat Data/example.gtf | grep -w 'exon' -v -c 
126
Mar402 10:17:51 ~
3.$ cat Data/example.gtf | grep -E 'CDS|UTR' | less -NS
Mar402 10:20:03 ~
4.$ cat Data/example.fq | grep '@' -c
1502
Mar402 10:25:30 ~
5.$ cat Data/example.fq | grep '^@' -c
1006
Mar402 10:25:36 ~
$ wc -l Data/example.fq 
4000 Data/example.fq
    #一共有4000行,一个基因四行通过^@抓取的应有1000个,但多出来了6个,之后是怎么将这六个找出。
Mar402 10:27:54 ~
$ less -SN Data/example.fq #通过查看发现基因都是有@ERR329499的
Mar402 10:28:07 ~
$ cat Data/example.fq | grep '^@' | grep -v '@ERR329499' -n # 将不是@ERR329499的行输出,即可找到
267:@;;@=BBBBBB??=?DD==8CBB@=>BBA=8=@@;DBDBBBEEBEGGGDBEEBBEGDGG@4.+?88BB<?
272:@HHHFHGHEHHGHHD;@EDFBDBBGGGDG?GGEBEGEGGGGGEBE<F8F<>A>A>GGAGA??>A######
429:@E<?GGGGBGGBGBDEED<DE<DEBDG@GE>>B;;BEEB=??2>CACAC?>B??????CE??E8?G@DD#
620:@BGDGBGEGEFGGHHHGHGH=GGGGHHHHHHDHFHHGDGHHHHHHHHHHHHDGDHHGHHHHHHHFHGHGH
633:@@;@=BDDBDDGE4GG?FGGG<GBDEEDEEHGHHFHHHHHHHFHHGGGGGHHHFHHHGHHHEHHHEGEGG
831:@GBGG?CEEDEB:E8ED>:EBD=@D6=5=<AA>A1CC>E###############################
6.Mar402 10:38:04 ~
$ grep 'TATA[AT]A[AT].' -r Data/ -n

附加题

代码语言:txt
复制
Mar402 10:42:50 ~
$ less -SN Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3 | grep -v '#' | cut -f 3 | sort | uniq -c
    290 biological_region
   1568 CDS
      1 chromosome
   4285 exon
    222 five_prime_UTR
     47 gene
    258 lnc_RNA
    149 mRNA
      7 ncRNA
     92 ncRNA_gene
    382 pseudogene
    382 pseudogenic_transcript
      3 snoRNA
     17 snRNA
    196 three_prime_UTR

----来自生信技能树----

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • grep (pic1,2)
    • 抓取单词 grep -w
    • 正则表达式 pic4
    • 练习1
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档