首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

vivo 敏感词匹配系统的设计与实践

由于多音字、同音字变化较多,一个词的所有谐音词都穷举出来是很困难的。...因此我们实现了拼音敏感词的匹配方案,中文文本转换为拼音再匹配,通过读音匹配敏感词,即可保证命中所有的同音字,运营直接配置敏感词的拼音,例如“CAI PIAO”,即可命中“啋票”、“彩票”、“采漂”等词汇...3.2.1 匹配流程 常规的AC自动机算法是逐字符匹配的,因此Trie树上每个节点存储一个字符,但拼音敏感词需要按照音节匹配,因此我们Trie树的节点数据类型由char改为String,示例: 拼音敏感词的匹配关键在于汉字准确的转换为拼音...如果拼音转换不精准,则拼音敏感词也无法准确命中。 因此我们不依赖算法识别多音字的读音,而是文本内容的所有读音都列出来匹配一遍,就可以避免避免拼音转换不精准的问题。...拼音图的起始节点和终止节点之间存在多条路径,这些路径对应了多音字的所有排列组合情况,为了避免漏杀,我们需要使用AC自动机这些路径都匹配一遍。

18910
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    vivo 敏感词匹配系统的设计与实践

    由于多音字、同音字变化较多,一个词的所有谐音词都穷举出来是很困难的。...因此我们实现了拼音敏感词的匹配方案,中文文本转换为拼音再匹配,通过读音匹配敏感词,即可保证命中所有的同音字,运营直接配置敏感词的拼音,例如“CAI PIAO”,即可命中“啋票”、“彩票”、“采漂”等词汇...3.2.1 匹配流程 常规的AC自动机算法是逐字符匹配的,因此Trie树上每个节点存储一个字符,但拼音敏感词需要按照音节匹配,因此我们Trie树的节点数据类型由char改为String,示例: [7a7ffcbbb8e14b93a47005374fcfb3f4...如果拼音转换不精准,则拼音敏感词也无法准确命中。 因此我们不依赖算法识别多音字的读音,而是文本内容的所有读音都列出来匹配一遍,就可以避免避免拼音转换不精准的问题。...拼音图的起始节点和终止节点之间存在多条路径,这些路径对应了多音字的所有排列组合情况,为了避免漏杀,我们需要使用AC自动机这些路径都匹配一遍。

    1.3K10

    脑机接口重要突破!国内团队成功实现「全谱汉语解码」:Top 3准确率接近100%

    今年八月,两篇背靠背《自然》文章展示了脑机接口在语言恢复方面的强大能力,单现有的语言脑机接口技术多是为「英文等字母语言」体系构建而成,针对「汉字等非字母体系」的语言脑机接口系统研究仍是空白。...论文地址:https://www.biorxiv.org/content/10.1101/2023.11.05.562313v1 此项研究通过立体定向脑电技术(SEEG)采集所有普通话汉字发音过程对应的大脑内神经活动信号...,结合深度学习算法和语言模型,实现了对全谱汉字发音的解码,建立起覆盖所有汉语普通话字符发音的汉语脑机接口系统,实现了大脑活动到完整普通话句子的端到端输出。...从汉语发音音节的声母、声调和韵母三个要素出发,结合拼音输入系统的特点,设计了一种全新的适用于汉语的语言脑机接口系统。...研究团队通过设计覆盖所有407个汉语拼音音节以及汉语发音特点的语音库并同步收集脑电信号,构建了超过100小时的汉语语音-SEEG数据库。

    16510

    正则表达式 - 匹配 Unicode 和其他字符

    中文转拼音         这里的实现与正则表达式无关。在后面会说明为什么加此一节。         需求是字符串中的汉字转为拼音。...创建一个汉字转拼音的函数,在其中判断每个字符是否为中文,如果是则查询拼音表取得对应的拼音,否则原样返回。...遇到中英文混排、全角、半角字符同时出现的情况,看可以用 \p{Z} 匹配所有空白字符(而不用关心空格到底是全角空格还是半角空格),用 \p{P} 匹配所有的标点字符(而不用关心逗号到底是中文逗号还是英文逗号...如果把 Unicode Property 理解为一个“字符组”,一定还有对应的排除型字符组,此排除型字符组的通行记法是 \p{property} 中的小写改为大写 P,写作 \P{property}。...mysql> -- 匹配所有非汉语(包括空白符、标点等)字符 mysql> select regexp_replace('Unicode, 字符,属性!'

    2.8K110

    早期,SEO人员解读:百度分词算法分析

    而且是专用词典先切分,然后剩余的片断交由普通词典来切分。...整体流程看起来很简单,但是还有一些遗留的小问题,比如是否词表里面所有同音词都作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?...百度并没有所有同音词都输出而是选择一定筛选标准, 选择其中几个输出.怎么证明这一点?...最后让我们总结归纳一下百度的拼写检查系统: 后台作业:(1)前面的文章我们说过,百度分词使用的词典至少包含两个词典一个是普通词典,另外一个是专用词典(专名等),百度利用拼音标注程序依次扫描所有词典中的每个词条...,前面文章我们也讲过,百度有两个词典,一个普通词典,一个专有词典,而且是专有词典的词汇先切分,然后剩余片断交给普通词典去切分.所以上面的"北京华烟云"之所以被切分成,另外一个可能是:京华烟云这个词汇是在专有词典里面存储的

    54820

    超简单 Python 汉字拼音转换工具,你一定要试试

    汉字转为拼音,可以用于批量汉字注音、文字排序、拼音检索文字等常见场景。...现在互联网上有许多拼音转换工具,基于Python的开源模块也不少,今天给大家介绍一个功能特性最多的模块:  pypinyin ,它支持以下特性: 1. 根据词组智能匹配最正确的拼音。 2....如果你用的是 VSCode编辑器 或 Pycharm,可以直接使用界面下方的Terminal. pip install pypinyin 2.基本使用 最普通拼音转化方法如下: # Python实用宝典...另外,所有模块自带的 style 及其效果如下: @unique class Style(IntEnum):     """拼音风格"""     #: 普通风格,不带声调。...如:中国 -> ``zho1ng guo2``     TONE2 = 2     #: 声调风格3,即拼音声调在各个拼音之后,用数字 [1-4] 进行表示。

    1.1K30

    【经验分享】Centos7下虚拟机配置WEB服务器,Apache服务器的安装和配置,独立Apache服务器的安装和配置个人网站和虚拟主机的搭建,Apache服务器的运行测试

    这里假设为:index.html 第六步:增加 Listen80 一行 第七步:一节中的内容改为: 第八步:确保 IncludeOptional conf.d/*.conf 一行启动 ​编辑 第九步:...这里假设为:index.html 第六步:增加 Listen80 一行 第七步:一节中的内容改为: <Directory "/var/www/html...访问个人姓名拼音的个人站点http:/127.0.0.1/~个人姓名拼音,显示出来个人信息。...最后*.conf.bak文件一个一个更名为 *.conf ,每更名一个就重启 httpd 进程,直至判断出那个附件配置文件有错。...祝大家配置一切顺利,要是不会配置可以看文章最开头我录制的配置所有流程的视频。

    46610

    Python 玩转《生僻字》

    今天就来说一个有意思的pypinyin库,名字很直白,是Python版的拼音库,用来汉字转为拼音。 先来看下代码运行效果,比较喜欢结果print到命令行的样式: ?...思路 很简单,拼音库可以把汉字转化为拼音,那我们要做的就是读取文本,获取拼音,最后文本和拼音重新拼接。代码也不难,基本围绕字符串和列表进行拼接操作,比较适合新手朋友拿来练手。....txt"%txt_name,'w',encoding='UTF-8-sig') as m: m.write(result) 拼接 首先会对读入的文本进行整理,去除多余的空格,字符串中的汉字与列表中的拼音一一对应并拼接...恰巧听到《生僻字》,觉得既然逐字查拼音是个麻烦事,何不通过Python来批量添加拼音呢?...很幸运,还真有大佬写了这个pypinyin库,在Github上也已有1500多颗星了~ 昨天完成的小代码,是对剪贴板中复制的内容添加拼音,感觉实用性不强且操作不方便,故今天修改为读取txt文本生成注音版本

    81120

    重要突破!西湖大学团队和浙二医院共同实现脑机接口中文解码

    然而,现有的语言脑机接口技术多是为英文等字母语言体系构建而成,针对汉字等非字母体系的语言脑机接口系统研究仍是空白。...在该项研究中,研究团队通过立体定向脑电技术(SEEG)采集所有普通话汉字发音过程对应的大脑内神经活动信号,结合深度学习算法和语言模型,实现了对全谱汉字发音的解码,建立起覆盖所有汉语普通话字符发音的汉语脑机接口系统...,实现了大脑活动到完整普通话句子的端到端输出。...从汉语发音音节的声母、声调和韵母三个要素出发,结合拼音输入系统的特点,设计了一种全新的适用于汉语的语言脑机接口系统。...研究团队通过设计覆盖所有407个汉语拼音音节以及汉语发音特点的语音库并同步收集脑电信号,构建了超过100小时的汉语语音-SEEG数据库。

    41430

    汉字转拼音项目pinyin-plus开源

    汉字转拼音的库,有如下特点 拼音数据基于 cc-cedict 、kaifangcidian 开源词库 基于拼音词库的数据初始化分词引擎进行分词,准确度高,解决多音字的问题 支持繁体字 支持自定义词库,词库格式同...cc-cedict 字典格式 api 简单,分为普通模式、索引模式 项目地址:https://github.com/TapTap/pinyin-plus 使用场景 汉字转拼音,常用于索引引擎场景创建拼音的索引...,这个场景的问题一般由两种实现路径,一种是直接使用带拼音的的分词 插件,会自动帮你创建出拼音的索引,还有一种就是自己汉字转换为拼音字符串,采用空格分隔分词来达到定制化索引的目的。...不论哪种实现路径,都离不开分词和拼音转换。...pinyin-plus 1.0 使用 //普通模式示例

    29830

    Power BI着色地图优化中文地理标签

    前文介绍了如何在Power BI中使用带数据标签的着色地图,在设置过程中,部分读者遇到疑问,第一个问题是,地图设置一定要准备拼音列表吗?...注:本文涉及地图仅供学习与交流 准备拼音是为了数据与SVG地图文件中的区域ID对接,那么,ID可不可以直接是中文,省去拼音这个环节呢?...当然可以,如下图所示: 这样做的前提是把地图文件中的ID全部改为中文。...使用记事本打开SVG地图(在本公众号后台回复“SVG地图”可以获取世界、全国、省市区县的SVG地图下载链接),找到每个区域的ID,如下方,直接把拼音“FUJIAN”改为“福建”可以吗?...需要使用连接符连接,正确的ID命名是:_x798F__x5EFA_ 以此类推,重命名所有区域之后,你在Power BI中就不需要使用拼音设置着色地图了。

    1.7K10

    任意用户密码重置(四):重置凭证未校验

    现在,我尝试 key 从 FqvICT 改为 xxxxxx 后再访问,本来心理预期看到报错页面,没想到进入了新密码提交页面,难倒所谓的重置 token 仅仅是个摆设?...我关心普通用户和内部员工用户两类账号(即邮箱)。...普通用户的邮箱字典方面,把国人常见姓名拼音 top500 结合常见邮箱后缀(@qq.com、@163.com 等等)快速生成个简单邮箱字典;内部员工的邮箱方面,我从该网站域名注册信息查询到联系人为 omegait...这样,我不仅可以重置普通账号的密码,还能劫持大量内部员工、合作伙伴的账号,为避免影响业务,不再实际操作。...用常见用户名和中国人姓名拼音作为字典进行枚举,在所有结果中过滤显示含有关键字 的应答,得到的所有 UserName 参数值即为未设置密保问题的用户名。

    2.5K80

    ubuntu16.04安装搜狗输入法_ubuntu18.04安装搜狗输入法

    在“语言支持”的弹出窗口上,“键盘输入法系统”改为“Fcitx 4”,设置后,关闭窗口,重启Ubuntu。...四、选择需要的输入法 点击Ubuntu右上角顶栏的小键盘图标中打开,配置,如下图: 配置之后,就可以使用拼音输入了。...五、安装搜狗拼音 访问搜狗输入法For Linux 搜狗输入法Linux官网-首页 点击立即下载,在弹出窗口上选择“x86_64”下载64bit输入法,下载后的文件: 搜狗拼音输入法Linux...4.0下载的安装文件 双击下载的搜狗拼音安装文件。...本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站立刻删除。

    1.6K20

    输入法畅想

    之前看了吴军老师的《数学之美》,里面也提到了输入法,对于中文而言,拼音输入才是接近人本性的一种输入方式,虽然现在的拼音输入法重码率高,导致输入效率还不够高,但从长远来看,拼音输入法必将打败五笔输入法。...毕竟当年大家的输入法还是只能做到60分的时候,搜狗输入法能够做到90分,那就是极大的成功,现在大家都能做到90分了,接下来搜狗再大量投入也只能把90分做到95分,对普通用户来说,改善不明显,所以只能靠不断的扩展新的功能来进一步扩大用户群...比如之前一直用搜狗输入法,现在想换成谷歌输入法,但是又觊觎搜狗输入法的细胞词库,那么可以用深蓝词库转换搜狗细胞词库转换成谷歌拼音词库,导入谷歌拼音。...对于个人词库,也是如此,只需要在搜狗输入法中将个人词库备份,然后使用深蓝词库转换备份文件转换成谷歌拼音的词库导入即可。...虽然深蓝词库转换解决了输入法切换的问题,但是还有一个摆在所有输入法面前的问题,用户词库从哪里来?必须让用户在第一次输入时一个字一个字的选吗?

    2.5K30

    汉语转拼音工具、新华字典API——两个支持Python的中文资源

    汉字转拼音工具 ▌功能 中文字符转换为拼音。可用于汉字注音、排序、检索任务。 ▌特性 根据词组智能匹配最正确的拼音。 支持多音字。 简单的繁体支持, 注音支持。...支持多种不同拼音/注音风格。...特性 Web 版 Node 版 拼音库 常用字库。压缩、合并 完整字库。不压缩、合并 分词 没有分词 使用分词算法,多音字拼音准确。 拼音频度排序 有根据拼音使用频度优先级排序。 同 Web 版。...所有的数据都作者从网上找的。放在 Github 是为了方便自己的使用,同时也能方便有类似需求的人不用去做这些 trival 的工作。所有抓取数据的脚本都在仓库里。 中华新华字典数据库和 API 。...所有的数据放在 data/ 目录。

    3K30
    领券