Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >千万级敏感词过滤设计

千万级敏感词过滤设计

作者头像
全栈程序员站长
发布于 2022-09-02 03:25:10
发布于 2022-09-02 03:25:10
1.3K00
代码可运行
举报
运行总次数:0
代码可运行

大家好,又见面了,我是你们的朋友全栈君。

需求分析

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
系统有千万级的禁词需要去过滤
当中包含人名 特殊符号组成的语句 网址 单字组合成的敏感词 等等

初步设计

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
	1.解决千万级禁词存储及查找问题
	2.解决被过滤文本内容过多问题

详细设计

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
	1.采用ES作为禁词库 千万级数据检索时间在毫秒级满足需求
	2.不适用分词器需要完整匹配 分词后很多词都是合法的 组合之后才是敏感词
	3.被过滤文本内容分词不完整 利用IK分词器分词结果不适合现在的业务场景
		只能采用字符串分割的方式来匹配ES库
		带来的问题就是效率低下同步多线程下千字也需要将近4秒
		考虑采用异步模式来解决大数据量需要审核状态

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/138801.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年5月3,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
python敏感词过滤replace_python用类实现文章敏感词的过滤方法示例
过滤一遍并将敏感词替换之后剩余字符串中新组成了敏感词语,这种情况就要用递归来解决,直到过滤替换之后的结果和过滤之前一样时才算结束
全栈程序员站长
2022/09/08
1.5K0
PHP实现敏感词过滤系统「建议收藏」
FilterHelper.php,提供获取trie-tree对象,避免重复生成trie-tree对象和保证tree文件与敏感词库的同步更新
全栈程序员站长
2022/07/01
1.8K0
Python实现敏感词过滤
在我们生活中的一些场合经常会有一些不该出现的敏感词,我们通常会使用*去屏蔽它,例如:尼玛 -> **,一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中,这个时候我们就需要一定的手段去屏蔽这些敏感词。下面我来介绍一些简单版本的敏感词屏蔽的方法。
我被狗咬了
2020/05/08
6.1K0
Python实现敏感词过滤
怎么设计高效的敏感词过滤系统(一)
IM项目需要对上边传输的消息进行必要的过滤。如果总是对着某人输入f**k就显得不太文明了。
普通程序员
2019/10/23
7.6K1
怎么设计高效的敏感词过滤系统(一)
敏感词过滤器的实现
本文的敏感词过滤器用在SpringBoot项目中,因此,首先需要在pom.xml文件中导入如下依赖
全栈程序员站长
2022/06/30
1.6K0
敏感词过滤器的实现
.NET 6 实现敏感词过滤
敏感词过滤是一种处理网络内容的技术,可以检测和过滤出网络中的敏感/违禁词汇。它通过给定的关键字或字符串,判断网络内容是否包含某些敏感信息,从而防止违反法律法规的信息流通。
郑子铭
2023/08/29
5270
.NET 6 实现敏感词过滤
如何优雅地过滤敏感词
敏感词过滤功能在很多地方都会用到,理论上在Web应用中,只要涉及用户输入的地方,都需要进行文本校验,如:XSS校验、SQL注入检验、敏感词过滤等。今天着重讲讲如何优雅高效地实现敏感词过滤。
Bug开发工程师
2018/08/17
4.2K0
如何优雅地过滤敏感词
java实现敏感词过滤「建议收藏」
项目中的需要,对用户的输入进行敏感词的过滤,使用的是DFT算法,敏感词可以从数据库进行读取和配置. 把代码整理了一下,可以直接使用 完整工程下载地址: https://download.csdn.net/download/a897180673/10278921
全栈程序员站长
2022/09/03
1.6K0
java实现敏感词过滤「建议收藏」
OpenSource - 基于 DFA 算法实现的高性能 java 敏感词过滤工具框架
基于 DFA 算法实现,目前敏感词库内容收录 6W+(源文件 18W+,经过一次删减)。
小小工匠
2024/05/25
2770
OpenSource - 基于 DFA 算法实现的高性能 java 敏感词过滤工具框架
Python 敏感词过滤的实现「建议收藏」
其中strip() 函数 删除附近的一些空格,解码采用utf-8的形式,然后将其转为小写。 parse()函数就是打开文件,然后从中取各个关键词,然后将其存在关键词集合中。
全栈程序员站长
2022/09/05
1.1K0
【面试被虐】游戏中的敏感词过滤是如何实现的?
小秋今天去面试了,面试官问了一个与敏感词过滤算法相关的问题,然而小秋对敏感词过滤算法一点也没听说过。于是,有了以下事情的发生…..
Java团长
2019/05/16
1.6K0
【面试被虐】游戏中的敏感词过滤是如何实现的?
敏感词过滤算法:前缀树算法
平时我们在逛贴吧、牛客网的时候,我们经常可以看到一些形如 “***”的符号,通过上下文,我们也可以很容易猜到这些词原来是骂人的话,只是被系统和谐了。那么这是如何实现的呢?作为普通人,我们最先想到的一种办法就是把所有敏感串存入一个列表中,然后用户每发一条内容后台就把该内容与敏感串列表的每一项进行匹配,然后把匹配的字符进行和谐。显然这样的效率是很低的。非常影响性能,那么我们有没有其他的算法呢?这就是我这篇博文打算介绍的。
全栈程序员站长
2022/09/06
1.4K0
敏感词过滤算法:前缀树算法
vivo 敏感词匹配系统的设计与实践
谛听系统是vivo的内容审核平台,保障了vivo各互联网产品持续健康的发展。谛听支持审核多种内容类型,但日常主要审核的内容是文本,下图是一个完整的文本审核流程,包括名单匹配、敏感词匹配、AI机器审核、人工审核四个环节。待审核文本需要顺次通过名单匹配、敏感词匹配、AI机器审核三个流程,若结果为嫌疑则需要人工审核,否则将直接给出确定的结果。
用户6256742
2024/08/13
2750
vivo 敏感词匹配系统的设计与实践
vivo 敏感词匹配系统的设计与实践
谛听系统是vivo的内容审核平台,保障了vivo各互联网产品持续健康的发展。谛听支持审核多种内容类型,但日常主要审核的内容是文本,下图是一个完整的文本审核流程,包括名单匹配、敏感词匹配、AI机器审核、人工审核四个环节。待审核文本需要顺次通过名单匹配、敏感词匹配、AI机器审核三个流程,若结果为嫌疑则需要人工审核,否则将直接给出确定的结果。
2020labs小助手
2021/12/06
1.5K0
vivo 敏感词匹配系统的设计与实践
使用GBDT算法实现敏感词匹配
GBDT(Gradient Boosting Decision Tree)在数据分析和预测中的效果很好。它是一种基于决策树的集成算法。其中Gradient Boosting 是集成方法boosting中的一种算法,通过梯度下降来对新的学习器进行迭代。而GBDT中采用的就是CART决策树。
Lvshen
2024/01/15
5600
使用GBDT算法实现敏感词匹配
【愚公系列】2023年02月 .NET CORE工具案例-ToolGood.Words敏感词过滤
敏感词过滤是一种处理网络内容的技术,可以检测和过滤出网络中的敏感词汇。它通过给定的关键字或字符串,判断网络内容是否包含某些敏感信息,从而防止违反法律法规的信息流通。
愚公搬代码
2023/03/16
6100
【愚公系列】2023年02月 .NET CORE工具案例-ToolGood.Words敏感词过滤
【C++】算法集锦(11):敏感词过滤算法(DFA)
DFA:确定的 有穷 状态机 如果 设计模式 中的状态模式比较熟的话,这个就很清楚了。 DFA常用于敏感词过滤。
看、未来
2021/09/18
8700
用于Lucene的各中文分词比较
对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。
幽鸿
2020/04/02
1.9K0
商品搜索引擎—分词(插件介绍与入门实例)
本文主要介绍四个分词插件(ICTCLAS、IKAnalyzer、Ansj、Jcseg)和一种自己写算法实现的方式,以及一些词库的推荐。
全栈程序员站长
2021/04/07
8280
【迅搜16】SCWS分词(一)概念、词性、复合分词等级
正式进入到分词部分的学习了,这也是我们搜索引擎学习的最后一个部分了。在这里,我们还是以 XS 默认的 SCWS 分词器为基础进行学习,但是,就像之前的其它内容一样,原理和概念部分的内容很多都是相通的。即使你将来要用 Jieba 分词或者 IK 分词,它们所有的原理和 SCWS 都是大差不差的。
硬核项目经理
2024/01/09
6060
【迅搜16】SCWS分词(一)概念、词性、复合分词等级
相关推荐
python敏感词过滤replace_python用类实现文章敏感词的过滤方法示例
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档