前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >python敏感词过滤replace_python用类实现文章敏感词的过滤方法示例

python敏感词过滤replace_python用类实现文章敏感词的过滤方法示例

作者头像
全栈程序员站长
发布于 2022-09-08 02:56:28
发布于 2022-09-08 02:56:28
1.5K0
举报

大家好,又见面了,我是你们的朋友全栈君。

过滤一遍并将敏感词替换之后剩余字符串中新组成了敏感词语,这种情况就要用递归来解决,直到过滤替换之后的结果和过滤之前一样时才算结束

第一步:建立一个敏感词库(.txt文本)

第二步:编写代码在文章中过滤敏感词(递归实现)

# -*- coding: utf-8 -*-

# author 代序春秋

import os

import chardet

# 获取文件目录和绝对路径

curr_dir = os.path.dirname(os.path.abspath(__file__))

# os.path.join()拼接路径

sensitive_word_stock_path = os.path.join(curr_dir, ‘sensitive_word_stock.txt’)

# 获取存放敏感字库的路径

# print(sensitive_word_stock_path)

class ArticleFilter(object):

# 实现文章敏感词过滤

def filter_replace(self, string):

# string = string.decode(“gbk”)

# 存放敏感词的列表

filtered_words = []

# 打开敏感词库读取敏感字

with open(sensitive_word_stock_path) as filtered_words_txt:

lines = filtered_words_txt.readlines()

for line in lines:

# strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。

filtered_words.append(line.strip())

# 输出过滤好之后的文章

print(“过滤之后的文字:” + self.replace_words(filtered_words, string))

# 实现敏感词的替换,替换为*

def replace_words(self, filtered_words, string):

# 保留新字符串

new_string = string

# 从列表中取出敏感词

for words in filtered_words:

# 判断敏感词是否在文章中

if words in string:

# 如果在则用*替换(几个字替换几个*)

new_string = string.replace(words, “*” * len(words))

# 当替换好的文章(字符串)与被替换的文章(字符串)相同时,结束递归,返回替换好的文章(字符串)

if new_string == string:

# 返回替换好的文章(字符串)

return new_string

# 如果不相同则继续替换(递归函数自己调用自己)

else:

# 递归函数自己调用自己

return self.replace_words(filtered_words, new_string)

def main():

while True:

string = input(“请输入一段文字:”)

run = ArticleFilter()

run.filter_replace(string)

continue

if __name__ == ‘__main__’:

main()

以上就是本文的全部内容,希望对大家的学习有所帮助

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/136876.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年6月2,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python实现敏感词过滤
在我们生活中的一些场合经常会有一些不该出现的敏感词,我们通常会使用*去屏蔽它,例如:尼玛 -> **,一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中,这个时候我们就需要一定的手段去屏蔽这些敏感词。下面我来介绍一些简单版本的敏感词屏蔽的方法。
我被狗咬了
2020/05/08
6.1K0
Python实现敏感词过滤
.NET 6 实现敏感词过滤
敏感词过滤是一种处理网络内容的技术,可以检测和过滤出网络中的敏感/违禁词汇。它通过给定的关键字或字符串,判断网络内容是否包含某些敏感信息,从而防止违反法律法规的信息流通。
郑子铭
2023/08/29
5240
.NET 6 实现敏感词过滤
Serverless 实战:3 分钟实现文本敏感词过滤
敏感词过滤是随着互联网社区一起发展起来的一种阻止网络犯罪和网络暴力的技术手段,通过对可能存在犯罪或网络暴力的关键词进行有针对性的筛查和屏蔽,能够防患于未然,将后果严重的犯罪行为扼杀于萌芽之中。 随着各种社交论坛的日益火爆,敏感词过滤逐渐成为了非常重要的功能。那么在 Serverless 架构下,利用 Python 语言,敏感词过滤又有那些新的实现呢?我们能否用最简单的方法实现一个敏感词过滤的 API 呢? 了解敏感过滤的几种方法 Replace 方法 如果说敏感词过滤,其实不如说是文本的替换,以Pytho
腾讯云serverless团队
2020/05/14
1.5K0
python过滤敏感词记录
关于敏感词过滤可以看成是一种文本反垃圾算法,例如 题目:敏感词文本文件 filtered_words.txt,当用户输入敏感词语,则用 星号 * 替换,例如当用户输入「北京是个好城市」,则变成「**是个好城市」 代码:
学到老
2019/02/26
2.9K0
PHP DFA算法实现敏感词过滤包 php-dfa-sensitive
安装包地址:https://packagist.org/packages/lustre/php-dfa-sensitive
PHP学习网
2022/12/17
1.7K0
OpenSource - 基于 DFA 算法实现的高性能 java 敏感词过滤工具框架
基于 DFA 算法实现,目前敏感词库内容收录 6W+(源文件 18W+,经过一次删减)。
小小工匠
2024/05/25
2690
OpenSource - 基于 DFA 算法实现的高性能 java 敏感词过滤工具框架
DFA算法-简易Java敏感词过滤(含源文件和上万敏感词列表)
敏感词过滤说白了就是简单的字符串替换,Java本身已经提供了相关函数,但是一旦遇到长文本,或者敏感词数量庞大,效率下降就会非常明显。本文将介绍利用多叉树进行敏感词存储和过滤的方法。
DearXuan
2022/01/19
8K0
DFA算法-简易Java敏感词过滤(含源文件和上万敏感词列表)
算法-DFA算法-敏感词过滤算法(OC、Swift、Python)
前段时间,公司的IM SDK想做敏感词过滤,但是后端的小伙伴《比较忙》,在开产品需求会的时候想把敏感词过滤放到前端,让iOS、安卓自己搞,但是前端小伙伴写了一个方法来检测一段文本,耗时【一两秒】钟而且比较耗CPU,这样肯定不行的,最后后端小伙伴妥协了,把敏感词过滤放到后端了。
用户6004386
2019/10/23
6.5K0
算法-DFA算法-敏感词过滤算法(OC、Swift、Python)
敏感词过滤器的实现
本文的敏感词过滤器用在SpringBoot项目中,因此,首先需要在pom.xml文件中导入如下依赖
全栈程序员站长
2022/06/30
1.5K0
敏感词过滤器的实现
【说站】python敏感词替换
本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。
很酷的站长
2022/11/23
1.6K0
【说站】python敏感词替换
www6668861com请拨18687679362环球国际3分钟实践:Python语言在Serverless
随着各种社交论坛等的日益火爆,敏感词过滤逐渐成了非常重要的也是值得重视的功能。那么在Serverless架构下,通过Python语言,敏感词过滤又有那些新的实现呢?我们能否是用最简单的方法,实现一个敏感词过滤的API呢?
用户7106032
2020/03/23
5540
PHP实现敏感词过滤系统「建议收藏」
FilterHelper.php,提供获取trie-tree对象,避免重复生成trie-tree对象和保证tree文件与敏感词库的同步更新
全栈程序员站长
2022/07/01
1.8K0
【愚公系列】2023年02月 .NET CORE工具案例-ToolGood.Words敏感词过滤
敏感词过滤是一种处理网络内容的技术,可以检测和过滤出网络中的敏感词汇。它通过给定的关键字或字符串,判断网络内容是否包含某些敏感信息,从而防止违反法律法规的信息流通。
愚公搬代码
2023/03/16
6100
【愚公系列】2023年02月 .NET CORE工具案例-ToolGood.Words敏感词过滤
Python 敏感词过滤的实现「建议收藏」
其中strip() 函数 删除附近的一些空格,解码采用utf-8的形式,然后将其转为小写。 parse()函数就是打开文件,然后从中取各个关键词,然后将其存在关键词集合中。
全栈程序员站长
2022/09/05
1.1K0
屏蔽词过滤器
黑发不知勤学早,白首方恨读书迟。 ——颜真卿 我们可能想使用本地配置词库、过滤器的方式去做全局屏蔽词处理 这里针对三种参数情况 1.requestParam传参:http://localhost:
阿超
2022/08/17
7420
屏蔽词过滤器
PHP过滤敏感词
PHP实现的敏感词过滤方法,有好的编码和好的实现方法,可以发出来一起交流一下。以下是一份过滤敏感词的编码
php007
2019/08/02
4.5K0
java实现敏感词过滤「建议收藏」
项目中的需要,对用户的输入进行敏感词的过滤,使用的是DFT算法,敏感词可以从数据库进行读取和配置. 把代码整理了一下,可以直接使用 完整工程下载地址: https://download.csdn.net/download/a897180673/10278921
全栈程序员站长
2022/09/03
1.6K0
java实现敏感词过滤「建议收藏」
PHP——敏感词过滤
如果可以用第三方的话,那么你是幸运的,因为现在这种敏感词过滤,敏感图片,敏感语音过滤的第三方服务还是挺多的
思索
2024/08/16
1900
PHP——敏感词过滤
如何优雅地过滤敏感词
敏感词过滤功能在很多地方都会用到,理论上在Web应用中,只要涉及用户输入的地方,都需要进行文本校验,如:XSS校验、SQL注入检验、敏感词过滤等。今天着重讲讲如何优雅高效地实现敏感词过滤。
Bug开发工程师
2018/08/17
4.2K0
如何优雅地过滤敏感词
敏感词过滤算法:前缀树算法
平时我们在逛贴吧、牛客网的时候,我们经常可以看到一些形如 “***”的符号,通过上下文,我们也可以很容易猜到这些词原来是骂人的话,只是被系统和谐了。那么这是如何实现的呢?作为普通人,我们最先想到的一种办法就是把所有敏感串存入一个列表中,然后用户每发一条内容后台就把该内容与敏感串列表的每一项进行匹配,然后把匹配的字符进行和谐。显然这样的效率是很低的。非常影响性能,那么我们有没有其他的算法呢?这就是我这篇博文打算介绍的。
全栈程序员站长
2022/09/06
1.4K0
敏感词过滤算法:前缀树算法
相关推荐
Python实现敏感词过滤
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档