在使用shell环境的时候,难免会遇到对文本进行操作的情况,shell提供了一些功能强大的文本操作命令,这里做了简单汇总,有助于了解和学习这些工具,提高工作中处理文本的效率
grep是经常使用的文本查找工具,下面列举grep常用的一些命令。当然,也有比grep更好的工具ripgrep。这个可以后续探索
grep -vE "^#|^$" /etc/ssh/sshd_config
-v是选中不匹配的行,-E是明确使用正则 ^$ 是没有数据的行 ^#是以#开头的行
dmesg | grep -i cfg80211 -A 5 dmesg | grep -i cfg80211 -B 5 dmesg | grep -i cfg80211 -C 5
A after 之后的5行, B before 之前的5行, C 是A+B的合计,前后5行
-i 忽略大小写
cut是一个字符截取命令,其命令在处理一些字符串上,可以方便的对一些字符串直接截取。如果文本内容格式比较规律的话,也可以用来筛选指定分隔符下的内容
ifconfig | grep -vE "^ |^$" | cut -d ' ' -f 1 | cut -d ":" -f 1
-d 是指定分隔符, -f 是指定某个域。
-d ' ' -f 1 是以单个空格为分隔符找到第一个域
cut -d ":" -f 1 是以冒号为分隔符找到第一个域
dmesg | cut -b -15
sed是重要的字符替换工具,也就流编辑器,可以方便的直接替换一些文本内容,从而不用打开文本去处理,这使得在shell内对文本替换来说十分方便
-e :添加一个命令,多个sed命令可以用这个 -i :直接修改文件内容 -n :取消自动打印,只打印模式匹配的行 -E :支持扩展表达式;
cat filename | sed -e“s/text/replace/g”-e“s/text/replace/g”
-e 允许运行多个命令,s///g是替换的语法, s指的搜索,g指的全局。也就是搜索全局,然后统一替换
cat filename | sed -e "4a help"
在文本第4行后添加help作为新的一行
cat filename | sed -e "4i help"
在文本第4行前添加help作为新的一行
cat filename | sed -e "/^$/d"
删除空格行
cat filename | sed "s/[a-z]\|[A-Z]/[&]/g"
对文本中的所有字符加上[] 。&指的是上一次搜索到的值。 | 是或,意思可以多条规则匹配
echo a b | sed -E -e "s/([a-z]) ([a-z])/\2 \1/"
()可以声明这是一个字串,()声明的字串,可以通过\1 \2等通配来引用。
-E 代表使用正则,如果不加-E 则使用()的时候需要转换成 () 那么匹配一个a-z的字符需要这样表示 ([a-z])
那么不加-E 的效果如下
echo a b c | sed -e "s/\([a-z]\) \([a-z]\) \(c\)/\3 \2 \1/"
sort是重要的字符和数字排序工具,可以直接对文本进行升序和降序操作
grep -n '.' /etc/os-release | sort -t ':' -k1 -nru
-t 指定分隔符
-k 指定分隔符划分的域
-n 指定排序方式为数字(默认为字符)
-r 指定反序
cat /etc/os-release | sort -t '=' -k 1.2 -u
-u 去掉重复的排序行
uniq是找重复的工具,可以快速的识别出文本中完全重复的行,并记录次数
cat Readme.md | uniq -dci
cat Readme.md | uniq -u
-d 是找到完全重复的行
-c 是统计重复次数
-i 是忽略大小写
-u 是打印不重复的行
awk模式是模式扫描及处理语言,也就是说文本处理规则太多了,我定义一个语言,你们想怎么匹配就怎么匹配
NF 一条记录的字段的数目 NR 行号,当前处理的文本行的行号 FS 定义间隔符 OFS 定义输出字段分隔符,默认空格 RS 输入记录分隔符,默认换行
awk默认格式为
awk '{pattern + action}' {filenames}
这里'{}'里面就是代码域,用于编写awk代码的地方。
最简单的打印可以如下
echo | awk '{print "Hello World"}'
直接打印hello world
echo Hello World | awk '{print $1" "$2}'
打印传过来的参数
cat /etc/passwd | awk 'BEGIN{count=0;print "begin is:" count} {count=count+1;print count} END{print "end is:"count}'
这里统计了passwd的文件行数
awk不仅默认{}里面填写代码,也可以在BEGIN和END宏里面填写代码,BEGIN填写的代码,在{}前运行,END填写的代码在{}后运行
ll |awk 'BEGIN {byte=0;print "统计当前目录占用字节数"} {byte=byte+$5;} END{print "当前目录字节数为:",byte}'
这里统计了当前目录的字节数,不包括下级目录
cat /etc/passwd | awk '{if(NR>=10 && NR<=20) print $1}'
这里取passwd文件的第10行到20行内容
'{}'的if语句可以和C语言一样,print可以和python语言一样。
cat /etc/passwd | awk -F '' 'BEGIN{count=0} {for(i=1; i<=NF; i++) count++} END{print count}'
这里对每个字符做计数,最后打印存在的字符总数。
echo abcdefg | awk -F '' '{i=1; while(i<=length($0)) {print $i;i++}}'
这里对一行abcdefg转换成一个字母多行
echo "1 2,3:4" | awk -F [" ",:] '{print $1$2$3$4}'
以空格,逗号,冒号作为分隔符打印第1,2,3,4个匹配的内容
echo "1 2,3:4" | awk BEGIN{'FS="[ ,:]"} {print $1$2$3$4}'
FS宏也可以代替-F参数,需要注意的是,FS参数需要在后面加上"" 双引号
这里介绍了grep sort uniq awk sed cut一共六个命令,每个命令都可以搭配起来使用。这里简要介绍一下在哪些情况下可以用哪些命令
1.搜索一些匹配单词的时候,可以用grep,例如 grep -nr text filename 2.面临排序问题的时候,可以用sort, 例如 sort -r 3.去重复行的时候,可以用uniq, 例如 uniq -u 4.批量替换的时候,可以用sed,例如 sed -i “s/text/replace/g” 5.对特定格式字符串进行截取的时候,可以用cut ,例如 cut b 1-3 6.在对一些列的域做划分的时候,可以用awk , 例如 awk -F ‘:’ '{print $1}' 7.对文本进行高级编辑操作的时候,awk都能完成.