首页
学习
活动
专区
圈层
工具
发布

如何用 awk 删除文件中的重复行【Programming】

了解如何在不排序或更改其顺序的情况下使用awk'!visited $ 0 ++'。 [jb0vbus7u0.png] 假设您有一个文本文件,并且需要删除它的所有重复行。...对于文件的每一行,如果行出现次数为零,则将其增加一并打印该行,否则,它仅增加出现次数而无需打印该行。 我对awk并不熟悉,所以我想了解它是如何通过这么短的脚本来实现这一点的。...visited [ $0]访问存储在映射中的值,其键值等于$0(正在处理的行),也称为匹配项(我们将会在下面设置)。 取非(!)的值:在awk中,任何非零数字值或任何非空字符串值均为true 。...否则,不执行操作,也不打印任何内容。 为什么不使用 uniq 命令? uniq命令仅除去相邻的重复行 。...1 abc 2 ghi 3 abc 4 def 5 xyz 6 def 7 ghi 8 klm sort -uk2根据第二列对行进行排序 ( k2选项),并且只保留第一次出现的具有相同第二列值的行(u

10.8K00

命令行工具:awk文本处理

:第一个字段的内容 执行逻辑是: 执行BEGIN块里命令 读取一行内容(文件或stdin),匹配模式,若匹配成功,执行commands;匹配不成功,不执行;如果没有模式,默认都执行;重复这一步 执行END...-F ',' '{print $NF}' student.csv:打印最后一列,指定是按逗号分隔 awk '{s+=$3} END {print s}' student.csv:计算第三列的和,如果没有表头的话...其中-F","告诉awk用逗号分隔;BEGIN里的get line告诉awk跳过第一行;后面每次循环加上第三列的值,结果就是求个sum。...同样开始的时候,跳过第一行;max 的值,将其赋给max,如果没有,继续;最后打印最大值。...Separator,默认的是空格,可以重新指定为逗号;后面建立一个临时变量,然后交换第三四列;打印交换后的行。

84530
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Linux之awk命令详解(二)

    { }类似一个循环体,会对文件中的每一行进行迭代,通常将变量初始化语句放在BEGIN语句块中,将打印结果等语句放在END语句块中。...I am a DBA 找出包含and的行,并打印它的第一列 [root@dev01 yeyz_shell]# cat awk_test7.txt | awk '/and/{print $1 }' This...找出包含a的行,并打印它的第一列 [root@dev01 yeyz_shell]# cat awk_test7.txt | awk '/a/{print $1 }' this This I 上面的例子描述了如何通过正则匹配出包含某个关键字的行...,并打印这一行的某一列值,当然,有一些例子存在例外,比如下面这个: [root@dev01 yeyz_shell]# cat awk_test8.txt /usr/local/mysql /bin/bash....txt | awk '{if($1=="hello"){print $2}}' world 如果某一行第一列是hello,则输出该行第二列的值,否则输出该行的所有列 [root@dev01 yeyz_shell

    2.8K40

    shell文本处理工具sed、cut、awk

    不打印模式空间中的内容,而是仅打印和sed命令匹配的内容 -i 直接对源文件进行修改(慎用) 动作说明: a :新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~ c :...n和p 一般是一起使用 -n选项:只显示匹配处理的行(否则会输出所有)(也就是关闭默认的输出) -p选项:打印 [root@centos6 ~]# vim a.txt [root@centos6...^a/{print $0}' passwd 搜索 passwd 文件,以:分隔,输出以 a 字母开头的所有行的第 1 列和第 6 列,两列之间加上--字符 [admin@ datas]$ awk -...[admin@ datas]$ awk -F ':' 'BEGIN{print "1 列--6 列"} /^a/{print $1"--"$6} END {print "这是所有的以 a 开头的行的 1...值和关键字都存储在内部的一张针对key/value应用hash的表格里。

    76020

    生信人的自我修养:Linux 命令速查手册

    精心整理了生物信息学中常用的 Linux 命令,很不容易。所有命令的用法都经本人亲自测试。掌握这些命令,是每一个生信人基本的自我修养。...,只保留一条记录,相当于: sort -u file # 利用sort, uniq取两个文件的交、并、补集 sort a b | uniq # 并集 sort a b | uniq -d > c...' file # 打印整行 awk '{print $1}' file # 打印第一列 awk '{print $2}' file # 打印第二列 awk '{print $NF}' file # 打印最后一列...1列,第2列和最后一列,并且打印时以制表符作为列的分隔符 number=10;awk -v n=$number '{print n}' file # number的值被传给了程序变量n awk '$2...> 100' file # 打印第2列大于100的行 awk 'NR>1 && NR打印第2~3行 awk '/EGFR/' file # 打印含有EGFR的行,相当于grep

    7.8K22

    intermediate awk 脚本指南【Linux-Command line】

    例如,要选择和仅打印第二列中具有字符串“ purple”且第三列中少于五的记录: 02.png 如果记录在第二列中具有“purple”,但在第三列中具有大于五的值,则该记录不会被选中。...同样,如果一条记录符合第三列的要求,但在第二列中缺少“purple”,则该记录也不会被选中。 Next命令 假设你要选择文件中数量大于或等于8的每条记录,并打印带有两个星号(**)的匹配记录。...你还希望标记出值介于5(包含5)和8之间且仅带有一个星号(*)的每条记录。 有几种方法可以执行此操作,一种方法是使用next命令来指示awk,它在执行操作后应停止扫描并继续处理下一条记录。...如果要在所有记录中打印某些值的累积结果,则只有在扫描和处理所有记录后才能执行此操作。 BEGIN和END命令每个仅运行一次。 它们之间的所有规则在每个记录上运行零次或多次。...你可以在不声明其类型的情况下随意创建它们,并任意为其添加值。 在循环结束时,脚本将各个列中的记录加在一起,并打印总数。

    1.5K30

    awk命令详解

    如果没有指定条件则匹配所有数据,如果没有指定动作则默认为print打印。...NF}' #输出每行数据的列数 awk '{print $NF}' /tmp/hosts #打印每行数据的最后一列 awk '{print $(NF-1)}' /tmp/hosts #打印每行倒数第二列...awk '{print "第1列:"$1,"\t第2列:"$2}' /tmp/hosts 2.8.条件匹配 awk支持使用正则进行模糊匹配,也支持字符串和数字的精确匹配,并且支持逻辑与和逻辑或。.../passwd 逐行读取/etc/passwd文件,x初始值为0,匹配到以bash结尾的行时自加1,最后打印x的值。...这里面包含了两个循环,一个是隐含循环,awk会逐行处理数据;一个是for循环每列的值,如果等于root,就让x自加1,最后打印x的值 4.3.while循环 语法: while(条件判断){

    2.9K30

    资源 | 简单快捷的数据处理,数据科学需要注意的命令行

    JOIN(连接并合并文件) join 命令是一个简单的、拟正切的 SQL。最大的区别在于 join 将返回所有列,并且只能在一个字段上进行匹配。默认情况下,join 将尝试使用第一列作为匹配键。...可选参数: join -a 打印不能匹配的行 join -e 替换丢失的输入字段 join -j 等价于 -1 FIELD -2 FIELD GREP(这是一种强大的文本搜索工具) 全面搜索正则表达式并打印...grep -w 只匹配全字符 grep -l 打印出匹配的文件名 grep -v 反转匹配 SED(流编辑器) sed 是一个逐行运行的流编辑器。...awk '/word/' filename.csv 或者使用一些技巧将 grep 和 cut 结合起来。这里,对于所有我们要查找的 word 行,awk 打印第三列和第四列和分隔符。...-F,仅将分隔符改为逗号。 awk -F, '/word/ { print $3 "\t" $4 }' filename.csv awk 内置了许多优秀的变量。例如,NF -字段数,NR -记录数。

    1.8K50

    shell学习教程(超详细完整)

    其中双引号括起来的内容“$”,“(”和反引号都拥有特殊含义,而单引号括起来的内容都是普通字符。 不能使用标点符号,不能使用bash里的关键字(可用help命令查看保留关键字)。...BEGIN后的动作只在程序开始时执行一次 awk保留字 END 在awk程序处理完所有数据,即将结束时执行。...“这是一张成绩单”(只会执行一次) #第二个动作会打印文件的第二字段和第六字段 END END也是awk保留字,不过刚好和BEGIN相反。...awk常用统计实例 1、打印文件的第一列(域) : awk '{print $1}' filename 2、打印文件的前两列(域) : awk '{print $1,$2}' filename...3、打印完第一列,然后打印第二列 : awk '{print $1 $2}' filename 4、打印文本文件的总行数 : awk 'END{print NR}' filename 5、打印文本第一行

    7K21

    Linux三剑客之grep,awk,sed命令必知必会

    Linux中的Grep,Awk和Sed命令之间有什么区别? Grep命令用于查找文件中的特定模式,并输出包含搜索模式的所有结果。...Grep是用于快速搜索匹配模式的简单工具,但是awk更像是一种编程语言,用于处理文件并根据输入值生成输出。 sed命令对修改文件最有用,它搜索匹配的模式并替换它们并输出结果。...在Linux中使用Grep命令 Grep命令用于查找文件中的特定模式并显示与该模式匹配的所有字段。搜索的模式通常是正则表达式。...linuxmi@linuxmi:~/www.linuxmi.com$ awk '{print}' linuxmi.txt 例如,要打印与给定模式匹配的行,让我们打印其中包含单词“linuxmi”的所有行...$ NF - 打印最后一列 linuxmi@linuxmi:~/www.linuxmi.com$ awk '{print NF}' linuxmi.txt OFS - 输出字段分隔符–用于指定输出值的分隔符

    9.9K20

    Linux三剑客(grep、sed、awk)

    awk擅长取列。 二、grep 文本过滤(模式:pattern)工具,grep, egrep grep [OPTIONS] PATTERN [FILE...]...--color=auto 对匹配到的文本着色显示 -v 显示不被pattern匹配到的行 -i 忽略字符大小写 -n 显示匹配的行号 -c 统计匹配的行数 -o 仅显示匹配到的字符串 -q 静默模式,不输出任何信息...-i 直接编辑文件 -i.bak 备份文件并原处编辑 script 地址定界 不给地址:对全文进行处理 单地址: #: 指定的行,$:最后一行 /pattern/:被此处模式所能够匹配到的每一行 地址范围...-v var=value 自定义变量 分割符、域和记录 awk执行时,由分隔符分隔的字段(域)标记1,1,2..n称为域标识,n称为域标识,0为所有域。...[-F|-v] '行数筛选{XXX;XXX;printf “”,XXX,XXX}' 举例子: 1、打印文件第一列: 这里的分隔符是冒号 ,然后print打印第一列 2、输出字段1,3,6,以制表符作为分隔符

    4.3K11

    awk工具详解

    ,不会默认输出 如果没有定义匹配条件默认是匹配所有数据行,awk隐含循环,条件匹配多少次动作就会执行多少次 工作原理(2): 逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中...awk从文件上读取资料时,将根据Rs的定义把资料切割成许多条记录,而awk一次仅读入一条记录,以进行处理。...预设值是’ \n’ 简说:数据记录分隔,默认为\n,即每行为一条记录 案例 awk常用内置变量:1、2、NF、NR、 1:代表第一列2:代表第二列以此类推 $0:代表整行 NF:一行的列数 NR.../passwd  ##打印第三列大于等于1000的行 awk -F: ‘$3=1000’ /etc/passwd   ##打印第三列小于10 或者大于等于1000的所有行 awk -...F: ‘$3>10 && $3打印第三列大于10小于等于100所有行  awk ‘NR>2 && NR打印3到7行 seq 200

    3.5K20
    领券