Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >千万级敏感词过滤设计

千万级敏感词过滤设计

作者头像

全栈程序员站长

发布于 2022-09-02 03:25:10

发布于 2022-09-02 03:25:10

1.3K00

代码可运行

举报

文章被收录于专栏：全栈程序员必看全栈程序员必看

运行总次数：0

代码可运行

大家好，又见面了，我是你们的朋友全栈君。

需求分析

系统有千万级的禁词需要去过滤
当中包含人名 特殊符号组成的语句 网址 单字组合成的敏感词 等等

初步设计

	1.解决千万级禁词存储及查找问题
	2.解决被过滤文本内容过多问题

详细设计

	1.采用ES作为禁词库 千万级数据检索时间在毫秒级满足需求
	2.不适用分词器需要完整匹配 分词后很多词都是合法的 组合之后才是敏感词
	3.被过滤文本内容分词不完整 利用IK分词器分词结果不适合现在的业务场景
		只能采用字符串分割的方式来匹配ES库
		带来的问题就是效率低下同步多线程下千字也需要将近4秒
		考虑采用异步模式来解决大数据量需要审核状态

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/138801.html原文链接：https://javaforall.cn

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2022年5月3，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

python敏感词过滤replace_python用类实现文章敏感词的过滤方法示例

腾讯云开发者社区 https java 网络安全编程算法

过滤一遍并将敏感词替换之后剩余字符串中新组成了敏感词语,这种情况就要用递归来解决，直到过滤替换之后的结果和过滤之前一样时才算结束

全栈程序员站长

2022/09/08

1.5K0

PHP实现敏感词过滤系统「建议收藏」

php java https http 网络安全

FilterHelper.php，提供获取trie-tree对象，避免重复生成trie-tree对象和保证tree文件与敏感词库的同步更新

全栈程序员站长

2022/07/01

1.8K0

Python实现敏感词过滤

编程算法正则表达式 https 网络安全

在我们生活中的一些场合经常会有一些不该出现的敏感词，我们通常会使用*去屏蔽它，例如：尼玛 -> **，一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中，这个时候我们就需要一定的手段去屏蔽这些敏感词。下面我来介绍一些简单版本的敏感词屏蔽的方法。

我被狗咬了

2020/05/08

6.1K0

怎么设计高效的敏感词过滤系统（一）

数据结构编程算法

IM项目需要对上边传输的消息进行必要的过滤。如果总是对着某人输入f**k就显得不太文明了。

普通程序员

2019/10/23

7.6K1

怎么设计高效的敏感词过滤系统（一）

敏感词过滤器的实现

java https 网络安全

本文的敏感词过滤器用在SpringBoot项目中，因此，首先需要在pom.xml文件中导入如下依赖

全栈程序员站长

2022/06/30

1.6K0

.NET 6 实现敏感词过滤

网站 string 接口数据网络

敏感词过滤是一种处理网络内容的技术，可以检测和过滤出网络中的敏感/违禁词汇。它通过给定的关键字或字符串，判断网络内容是否包含某些敏感信息，从而防止违反法律法规的信息流通。

郑子铭

2023/08/29

5270

如何优雅地过滤敏感词

sql 人工智能编程算法

敏感词过滤功能在很多地方都会用到，理论上在Web应用中，只要涉及用户输入的地方，都需要进行文本校验，如：XSS校验、SQL注入检验、敏感词过滤等。今天着重讲讲如何优雅高效地实现敏感词过滤。

Bug开发工程师

2018/08/17

4.2K0

java实现敏感词过滤「建议收藏」

https 网络安全数据库 sql 编程算法

项目中的需要,对用户的输入进行敏感词的过滤,使用的是DFT算法,敏感词可以从数据库进行读取和配置. 把代码整理了一下,可以直接使用完整工程下载地址: https://download.csdn.net/download/a897180673/10278921

全栈程序员站长

2022/09/03

1.6K0

java实现敏感词过滤「建议收藏」

OpenSource - 基于 DFA 算法实现的高性能 java 敏感词过滤工具框架

算法 java 高性能工具框架

基于 DFA 算法实现，目前敏感词库内容收录 6W+（源文件 18W+，经过一次删减）。

小小工匠

2024/05/25

2770

OpenSource - 基于 DFA 算法实现的高性能 java 敏感词过滤工具框架

Python 敏感词过滤的实现「建议收藏」

https java 网络安全

其中strip() 函数删除附近的一些空格，解码采用utf-8的形式，然后将其转为小写。 parse()函数就是打开文件，然后从中取各个关键词，然后将其存在关键词集合中。

全栈程序员站长

2022/09/05

1.1K0

【面试被虐】游戏中的敏感词过滤是如何实现的？

小秋今天去面试了，面试官问了一个与敏感词过滤算法相关的问题，然而小秋对敏感词过滤算法一点也没听说过。于是，有了以下事情的发生…..

Java团长

2019/05/16

1.6K0

【面试被虐】游戏中的敏感词过滤是如何实现的？

敏感词过滤算法：前缀树算法

编程算法 https java 网络安全

平时我们在逛贴吧、牛客网的时候，我们经常可以看到一些形如 “***”的符号，通过上下文，我们也可以很容易猜到这些词原来是骂人的话，只是被系统和谐了。那么这是如何实现的呢？作为普通人，我们最先想到的一种办法就是把所有敏感串存入一个列表中，然后用户每发一条内容后台就把该内容与敏感串列表的每一项进行匹配，然后把匹配的字符进行和谐。显然这样的效率是很低的。非常影响性能，那么我们有没有其他的算法呢？这就是我这篇博文打算介绍的。

全栈程序员站长

2022/09/06

1.4K0

vivo 敏感词匹配系统的设计与实践

遍历设计实践算法系统

谛听系统是vivo的内容审核平台，保障了vivo各互联网产品持续健康的发展。谛听支持审核多种内容类型，但日常主要审核的内容是文本，下图是一个完整的文本审核流程，包括名单匹配、敏感词匹配、AI机器审核、人工审核四个环节。待审核文本需要顺次通过名单匹配、敏感词匹配、AI机器审核三个流程，若结果为嫌疑则需要人工审核，否则将直接给出确定的结果。

用户6256742

2024/08/13

2750

vivo 敏感词匹配系统的设计与实践

vivo 敏感词匹配系统的设计与实践

谛听系统是vivo的内容审核平台，保障了vivo各互联网产品持续健康的发展。谛听支持审核多种内容类型，但日常主要审核的内容是文本，下图是一个完整的文本审核流程，包括名单匹配、敏感词匹配、AI机器审核、人工审核四个环节。待审核文本需要顺次通过名单匹配、敏感词匹配、AI机器审核三个流程，若结果为嫌疑则需要人工审核，否则将直接给出确定的结果。

2020labs小助手

2021/12/06

1.5K0

vivo 敏感词匹配系统的设计与实践

使用GBDT算法实现敏感词匹配

机器学习决策树集合模型算法

GBDT(Gradient Boosting Decision Tree)在数据分析和预测中的效果很好。它是一种基于决策树的集成算法。其中Gradient Boosting 是集成方法boosting中的一种算法，通过梯度下降来对新的学习器进行迭代。而GBDT中采用的就是CART决策树。

Lvshen

2024/01/15

5600

使用GBDT算法实现敏感词匹配

【愚公系列】2023年02月 .NET CORE工具案例-ToolGood.Words敏感词过滤

敏感词过滤是一种处理网络内容的技术，可以检测和过滤出网络中的敏感词汇。它通过给定的关键字或字符串，判断网络内容是否包含某些敏感信息，从而防止违反法律法规的信息流通。

愚公搬代码

2023/03/16

6100

【愚公系列】2023年02月 .NET CORE工具案例-ToolGood.Words敏感词过滤

【C++】算法集锦（11）：敏感词过滤算法（DFA）

DFA：确定的有穷状态机如果设计模式中的状态模式比较熟的话，这个就很清楚了。 DFA常用于敏感词过滤。

看、未来

2021/09/18

8700

用于Lucene的各中文分词比较

数据分析 analyzer 中文分词 lucene/solr 编程算法

对几种中文分析器，从分词准确性和效率两方面进行比较。分析器依次为：StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer（JE分词）、PaodingAnalyzer。

幽鸿

2020/04/02

1.9K0

商品搜索引擎—分词（插件介绍与入门实例）

analyzer 中文分词 java http https

本文主要介绍四个分词插件（ICTCLAS、IKAnalyzer、Ansj、Jcseg）和一种自己写算法实现的方式，以及一些词库的推荐。

全栈程序员站长

2021/04/07

8280

【迅搜16】SCWS分词（一）概念、词性、复合分词等级

搜索引擎测试对象服务端工具

正式进入到分词部分的学习了，这也是我们搜索引擎学习的最后一个部分了。在这里，我们还是以 XS 默认的 SCWS 分词器为基础进行学习，但是，就像之前的其它内容一样，原理和概念部分的内容很多都是相通的。即使你将来要用 Jieba 分词或者 IK 分词，它们所有的原理和 SCWS 都是大差不差的。

硬核项目经理

2024/01/09

6060

【迅搜16】SCWS分词（一）概念、词性、复合分词等级

相关推荐

python敏感词过滤replace_python用类实现文章敏感词的过滤方法示例

更多 >