社区都会对发布的信息进行检查,并过滤一些非法的敏感词。在python中可以用关键字in来检测内容中是否存在敏感词汇。①检测信息中是否存在非法的敏感词汇,代码如下:
②将待检测信息中的敏感词汇替换为3个星号***
函数原型 str.replace(old, new[, max])
Python中的replace()方法是把字符串中的old(旧字符串)替换成new(新字符串),如果指定第三个参数max,则替换次数不超过max次(将旧的字符串用心的字符串替换不超过max次)。
例1
str = "baaabaabaab"
print(str.replace('a', '+')) #”b+++b++b++b”
print(str.replace('a', '+', 3)) #替换3次结果为 “b+++baabaab”
③利用正则表达式过滤敏感词
re.sub的函数原型为:re.sub(pattern, repl, string, count)
re.sub使用repl替换string中每一个匹配的子串后返回替换后的字符串。
代码中’|’.join(illegal_keys)的结果是生成匹配模式的内容:‘非法|暴力|性’。
上述代码输出的结果:这句话中有***内容,请谨慎小结:本文介绍了使用replace()函数和re.sub()来替换敏感词汇。
===================================
获取更多教学案例,可以扫描下面的二维码或微信搜一搜,关注本公众号。
领取专属 10元无门槛券
私享最新 技术干货