使用cut可以切割提取指定列字符字节的数据
cut
译为“剪切, 切割”,是一个强大文本处理工具,它可以将文本按列进行划分的文本处理。cut命令逐行读入文本,然后按列划分字段并进行提取、输出等操作。
cut [options] filename
options参数说明
选项参数 | 功能 |
---|---|
-f 提取范围 | 列号,获取第几列 |
-d 自定义分隔符 | 自定义分隔符,默认为制表符。 |
-c 提取范围 | 以字符为单位进行分割 |
-b 提取范围 | 以字节为单位进行分割。这些字节位置将忽略多字节字符边界,除非也指定了 -n 标志。 |
-n | 与“-b”选项连用,不分割多字节字符; |
提取范围说明
提取范围 | 说明 |
---|---|
n- | 提取指定第n列或字符或字节后面所有数据 |
n-m | 提取指定第n列或字符或字节到第m列或字符或字节中间的所有数据 |
-m | 提取指定第m列或字符或字节前面所有数据 |
n1,n2, ... | 提前指定枚举列的所有数据 |
cut1.txt文件数据准备
touch cut1.txt
编辑文件添加内容
AA itheima 11 XX
BB itcast 22 XXX
CC Shell 33 XXXX
DD it 44 XXXXXXX
提取文件中第一列数据
cut cut1.txt -d " " -f 1
提取文件中第一列,第三列, 枚举查找
cut cut1.txt -d " " -f 1,3
提取文件中第二列,第三列,第四列, 范围查找
提取文件中第一列后面所有列的数据
cut cut1.txt -d " " -f 2-
提起文件中结束列前面所有列的数据
cut -d " " -f -2 cut1.txt
# -2 提取指定列前面所有列数据
运行效果
提取每行前3个字符
cut cut1.txt -c1-3
提取每行第4个字符以后的数据
cut cut1.txt -c 4-
提取每行第3个字符前面所有字符
cut cut1.txt -c -3
提取字符串 "abc传智播客" 前3个字节
echo "abc传智播客" | cut -b -3
提取字符串"abc传智播客" 前4个字节
echo "abc传智播客" | cut -b -4
提取字符串"abc传智播客" 前6个字节
echo "abc传智播客" | cut -b -6
# 由于linux系统默认utf-8码表, 所以一个汉字占3个字节
提取字符串"abc传智播客" 前4个字节, 就可以将汉字 "传"输出,
echo "abc传智播客" | cut -nb -4
# -n 取消多字节字符分割直接输出
运行效果
在cut1.txt文件中切割出"itheima"
cat cut1.txt | grep itheima | cut -d " " -f 2
命令
ps -aux | grep 'bash' | head -n 1 | cut -d " " -f 8
ifconfig | grep broadcast | cut -d " " -f 10
运行效果
cut的作用
一个强大文本处理工具,它可以将文本按列进行划分的文本处理。cut命令逐行读入文本,然后按列划分字段并进行提取、输出等操作。
cut切割提取列
cut 文件或数据 -d 分隔符切割 -f 提取第X列
cut切割提取字符
cut 文件或数据 -c 提取字符范围
cut切割提取字节
cut 文件或数据 -nb 提取直接范围
使用sed编辑文件替换文件中的单词 编写在文件中插入或修改行的sed程序 使用sed作为过滤器来过滤管道数据命令
sed(stream editor, 流编辑器) 是Linux下一款功能强大的非交互流式文本编辑器(vim是交互式文本编辑器),可以对文本文件的每一行数据匹配查询之后进行增、删、改、查等操作,支持按行、按字段、按正则匹配文本内容,灵活方便,特别适合于大文件的编辑。
sed是一种流编辑器,它一次处理一行内容, 将这行放入缓存(存区空间称为:模式空间),然后才对这行进行处理,处理完后,将缓存区的内容发送到终端。
sed [选项参数] [模式匹配/sed程序命令] [文件名]
# 模式匹配,sed会读取每一行数据到模式空间中,之后判断当前行是否符合模式匹配要求,符合要求就会执行sed程序命令,否则不会执行sed程序命令;如果不写匹配模式,那么每一行都会执行sex程序命令
选项参数说明
选项参数 | 功能 |
---|---|
-e | 直接在指令列模式上进行sed的动作编辑。它告诉sed将下一个参数解释为一个sed指令,只有当命令行上给出多个sed指令时才需要使用-e选项;一行命令语句可以执行多条sed命令 |
-i | 直接对内容进行修改,不加-i时默认只是预览,不会对文件做实际修改 |
-f | 后跟保存了sed指令的文件 |
-n | 取消默认输出,sed默认会输出所有文本内容,使用-n参数后只显示处理过的行 |
-r ruguler | 使用扩展正则表达式,默认情况sed只识别基本正则表达式 * |
sed程序命令功能描述
命令 | 功能描述 |
---|---|
a | add新增,a的后面可以接字串,在下一行出现 |
c | change更改, 更改匹配行的内容 |
d | delete删除, 删除匹配的内容 |
i | insert插入, 向匹配行前插入内容 |
p | print打印, 打印出匹配的内容,通常与-n选项和用 |
s | substitute替换, 替换掉匹配的内容 |
= | 用来打印被匹配的行的行号 |
n | 读取下一行,遇到n时会自动跳入下一行 |
特殊符号
命令 | 功能描述 |
---|---|
! | 就像一个sed命令,放在限制条件后面, 对指定行以外的所有行应用命令(取反) |
{sed命令1;sed命令2} | 多个命令操作同一个的行 |
sed.txt文件内容
ABC
itheima itheima
itcast
123
itheima
向第三行后面添加hello
sed '3ahello' sed.txt
3 , 代表第三行 a, 代表在后面添加, 出现在下一行 注意这里没有修改源文件
向第三行前面添加hello
sed '3ihello' sed.txt
3 , 代表第三行 i, 代表在前面添加, 出现在上一行 注意这里没有修改源文件
向内容 itheima
后面添加 hello
,如果文件中有多行包括 itheima
,则每一行后面都会添加
sed '/itheima/ahello' sed.txt
向内容 itheima
前面添加 hello
,如果文件中有多行包括 itheima
,则每一行前面都会添加
sed '/itheima/ihello' sed.txt
在最后一行后面添加hello
sed '$ahello' sed.txt
$a: 最后一行后面添加
在最后一行前面添加hello
sed '$ihello' sed.txt
$i: 最后一行前面添加
sed '2d' sed.txt
# d 用于删除
# 2d 删除第2行
命令: 删除第1行,第4行数据
sed '1d;4d' sed.txt
从第一行开始删除,每隔2行就删掉一行。
sed '1~2d' sed.txt
# 1~2 从第1行开始, 每隔2行
删除从第1行到第3行的数据
sed '1,3d' sed.txt
# 1,3 从指定第1行开始到第3行结束
删除从第1行到第3行取反的数据
sed '1,3!d' sed.txt
# 1,3! 从指定第1行开始到第3行结束取反, 就是不在这个范围的行
命令
sed '$d' sed.txt
命令
sed '/itheima/d' sed.txt
删除匹配itheima行到最后一行 , 命令
sed '/itheima/,$d' sed.txt
# , 代表范围匹配
删除匹配itheima行及其后面一行
sed '/itheima/,+1d' sed.txt
删除不匹配 itheima
或 itcast
的行
sed '/itheima\|itcast/!d' sed.txt
# \| 是正则表达式的或者 这里|需要转义, 所以为\|
# ! 取反
命令
sed '1chello' sed.txt
命令
sed '/itheima/chello' sed.txt
命令
sed '$chello' sed.txt
将文件中的itheima替换为hello,默认只替换每行第一个itheima
sed 's/itheima/hello/' sed.txt
注意
's/itheima/hello/'
最后一个/
不可少
将文本中所有的itheima都替换为hello, 全局替换
sed 's/itheima/hello/g' sed.txt
# g 代表匹配全局所有符合的字符
将每行中第二个匹配的itheima替换为hello 命令
sed 's/itheima/hello/2' sex.txt
将每行中第二个匹配的itheima替换为hello , 将替换后的内容写入到sed2.txt文件中
# 第一种方式
sed -n 's/itheima/hello/2pw sed2.txt' sed.txt
# w写入
# p打印, -n只是获取
# 第二种方式
sed -n 's/itheima/hello/2p ' sed.txt > sed2.txt
匹配有 i
的行,替换匹配行中 t
后的所有内容为空
sed '/i/s/t.*//g' sed.txt
# /t.*/ 表示逗号后的所又内容
sed 's/$/& test' sed.txt
# & 用于拼接
#
命令
sed 's/^/#/' sed.txt
itcast
的行数据命令
sed -n '/itcast/p' sed.txt
管道查询所有进程中含有sshd的进程信息命令
ps -aux | sed -n '/sshd/p'
将sed.txt文件中的第1行删除并将 itheima
替换为 itcast
# 第一种方式, 多个sed程序命令 在每个命令之前使用 -e 参数
sed -e '1d' -e 's/itheima/itcast/g' sed.txt
# 第二种方式
sed '1d;s/itheima/itcast/g' sed.txt
2个缓存空间传输数据的目的是为了更好的处理数据
命令 | 含义 |
---|---|
h | 将模式空间里面的内容复制到暂存空间缓存区(覆盖方式) |
H | 将模式空间里面的内容复制到暂存空间缓存区(追加方式) |
g | 将暂存空间里面的内容复制到模式空间缓存区(覆盖方式) |
G | 将暂存空间里面的内容复制到模式空间缓存区(追加方式) |
x | 交换2个空间的内容 |
将模式空间第一行复制到暂存空间(覆盖方式),并将暂存空间的内容复制到模式空间中的最后一行(追加方式)
sed '1h;$G' sed.txt
# 1h 从模式空间中将第一行数据复制到暂存空间(覆盖方式)
# $G 将暂存空间中的内容复制到模式空间中最后一行(追加方式)
将模式空间第一行复制到暂存空间(覆盖方式)并删除, 最后将暂存空间的内容复制到模式空间中的最后一行(追加方式)
sed '1{h;d};$G' sed.txt
# 1{h;d}对模式空间中的第一行数据同时进行复制到暂存空间(覆盖方式)和删除模式空间中的第一行数据
将模式空间第一行复制到暂存空间(覆盖方式), 最后将暂存空间的内容复制到模式空间中替换从第2行开始到最后一行的每一行数据(覆盖方式)
sed '1h;2,$g' sed.txt
将前3行数据复制到暂存空间(追加方式), 之后将暂存空间的所有内容复制粘贴到模式空间最后一行(追加方式)
sed '1,3H;$G' sed.txt
插入空行
sed G -i sed.txt
# G 每行后面添加一个空行
# -i 修改源文件
命令
sed -i '/^$/d' sed.txt
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理,因为切开的部分使用awk可以定义变量、运算符, 使用流程控制语句进行深度加工与分析。
创始人 Alfred V. Aho、Peter J. Weinberger和Brian W. Kernighan awk由来是姓氏的首字母
awk [options] 'pattern{action}' {filenames}
pattern:表示AWK在数据中查找的内容,就是匹配模式 action:在找到匹配内容时所执行的一系列命令
选项参数说明
选项参数 | 功能 |
---|---|
-F | 指定输入文件拆分分隔符 |
-v | 赋值一个用户定义变量 |
内置变量 | 含义 |
---|---|
ARGC | 命令行参数个数 |
ARGV | 命令行参数排列 |
ENVIRON | 支持队列中系统环境变量的使用 |
FILENAME | awk浏览的文件名 |
FNR | 浏览文件的记录数 |
FS | 设置输入域分隔符,等价于命令行 -F选项 |
NF | 浏览记录的域的个数, 根据分隔符分割后的列数 |
NR | 已读的记录数, 也是行号 |
OFS | 输出域分隔符 |
ORS | 输出记录分隔符 |
RS | 控制记录分隔符 |
$n | $0变量是指整条记录。$1表示当前行的第一个域,$2表示当前行的第二个域,......以此类推。 |
$NF | $NF是number finally,表示最后一列的信息,跟变量NF是有区别的,变量NF统计的是每行列的总数 |
cp /etc/passwd ./
命令
echo "abc 123 456" | awk '{print $1"&"$2"&"$3}'
搜索passwd文件有root关键字的所有行
awk '/root/' passwd
# '/root/' 是查找匹配模式, 没有action命令, 默认输出所有符合的行数据
搜索passwd文件有root关键字的所有行, 然后以":"拆分并打印输出第7列
awk -F: '/root/{print $7}' passwd
# -F: 以':'分隔符拆分每一个列(域)数据
统计passwd: 文件名,每行的行号,每行的列数,对应的完整行内容:
awk -F ':' '{print "文件名:" FILENAME ",行号:" NR ",列数:" NF ",内容:" $0}' passwd
# "文件名:" 用于拼接字符串
使用printf替代print,可以让代码阅读型更好
awk -F ':' '{printf("文件名:%5s,行号:%2s, 列数:%1s, 内容:%2s\n",FILENAME,NR,NF,$O)}' passwd
# printf(格式字符串,变量1,变量2,...)
# 格式字符串: %ns 输出字符串,n 是数字,指代输出几个字符, n不指定自动占长度
# 格式字符串: %ni 输出整数,n 是数字,指代输出几个数字
# 格式字符串: %m.nf 输出浮点数,m 和 n 是数字,指代输出的整数位数和小数位数。如 %8.2f 代表共输出 8 位数,其中 2 位是小数,6 位是整数;
打印/etc/passwd/的第二行信息
awk -F ':' 'NR==2{printf("filename:%s,%s\n",FILENAME,$0)}' passwd
awk过滤的使用, 查找当前目录下文件名以c开头的文件列表
ls -a | awk '/^c/'
按照":" 分割查询第一列打印输出
awk -F ':' '{print $1}' passwd
按照":" 分割查询最后一列打印输出
awk -F: '{print $NF}' passwd
按照":" 分割查询倒数第二列打印输出
awk -F: '{print $(NF-1)}' passwd
# $(NF-N) N是几, 就是倒数第几列
获取第10到20行的第一列的信息
awk -F: '{if(NR>=10 && NR<=20) print $1}' passwd
"one:two/three"字符串按照多个分隔符":"或者"/" 分割, 并打印分割后每个列数据
echo "one:two/three" | awk -F '[:/]' '{printf("%s\n%s\n%s\n%s\n",$0,$1,$2,$3)}'
给数据添加开始与结束
echo -e "abc\nabc" | awk 'BEGIN{print "开始..."} {print $0} END{print "结束..."}'
# BEGIN 在所有数据读取行之前执行;END 在所有数据执行之后执行。
"abc itheima itcast 21" 使用空格分割后, 通过循环拼接在一起
echo "abc itheima itcast 21" | awk -v str="" -F '[ ]+' '{for(n=1;n<=NF;n++){ str=str$n} print str }'
# -v 定义变量
将passwd文件中的用户id增加数值1并输出
echo "2.1" | awk -v i=1 '{print $0+i}'
切割IP
ifconfig | awk '/broadcast/{print}' | awk -F " " '{print $2}'
查询sed.txt中空行所在的行号
sed 'G' sed.txt | awk '/^$/{print NR}'
运行效果
grep , sed ,awk , cut 文本字符串操作四剑客的区别
grep:用于查找匹配的行 cut: 截取数据. 截取某个文件中的列, 重点是按照列分割, 这个命令不适合截取文件中有多个空白字符的字段 sed: 增删改查数据. sed用于在文件中以行来截取数据进行增删改查 awk:截取分析数据. 可以在某个文件中是以竖列来截取分析数据, 如果字段之间含有很多空白字符也可以获取需要的数据, awk是一种语言,可以深入分析文件数据
sort命令是在Linux里非常有用,它将文件进行排序,并将排序结果标准输出或重定向输出到指定文件。
sort (options) 参数
选项 | 说明 |
---|---|
-n | number,依照数值的大小排序,需要数值的时候才加n |
-r | reverse, 以相反的顺序来排序 |
-t 分隔字符 | 设置排序时所用的分隔字符, 默认空格是分隔符 |
-k | 指定需要排序的列,必备 |
-d | 排序时,处理英文字母、数字及空格字符外,忽略其他的字符。 |
-f | 排序时,将小写字母视为大写字母 |
-b | 忽略每行前面开始出的空格字符 |
-o 输出文件 | 将排序后的结果存入指定的文件 |
-u | 意味着是唯一的(unique),输出的结果是去完重了的 |
-m | 将几个排序好的文件进行合并 |
参数:指定待排序的文件列表
sort.txt文本文件代码
张三 30
李四 95
播仔 85
播仔 85
播仔 86
AA 85
播妞 100
按照“ ”空格分割后的第2列数字升序排序。
sort -t " " -k2n,2 sort.txt
# -t " " 代表使用空格分隔符拆分列
# -k2n,2 代表根据从第2列开始到第2列结束进行数字升序, 仅对第2列排序
先按照“ ”空格分割后的, 然后,按照第2列数字升序排序, 最后对所有列去重
sort -t " " -k2n,2 -uk1,2 sort.txt
注意: 先排序再去重
命令
sort -t " " -k2n,2 -uk1,2 -o sort2.txt sort.txt
先按照“ ”空格分割后的, 然后,按照第2列数字降序排序, 最后对所有列去重
sort -t " " -k2nr,2 -uk1,2 sort.txt
运行效果
数据准备sort3.txt
公司A,部门A,3
公司A,部门B,0
公司A,部门C,10
公司A,部门D,9
公司B,部门A,30
公司B,部门B,40
公司B,部门C,43
公司B,部门D,1
公司C,部门A,30
公司C,部门B,9
公司C,部门C,100
公司C,部门D,80
公司C,部门E,60
要求: 以","分割先对第一列字符串升序, 再对第3列数字降序
sort -t "," -k1,1 -k3nr,3 sort3.txt
能够使用sort对字符串升序或降序排序
字符串升序:
sort -kstart,end 文件
字符串降序:sort -kstartr,end 文件
能够使用sort 对数字升序或降序
数字升序:
sort -kstartn,end 文件
数字降序:sort -kstartnr,end 文件
能够使用sort 对多列进行排序
sort -kstart[nr],end -kstart[nr],end ... 文件
版权属于:乐心湖's Blog
本文链接:https://cloud.tencent.com/developer/article/1774927
声明:博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!