首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >文本分词和去停止词的一次优化

文本分词和去停止词的一次优化

作者头像
故事尾音
发布于 2019-12-18 08:49:26
发布于 2019-12-18 08:49:26
81300
代码可运行
举报
运行总次数:0
代码可运行

之前在处理QA语料库的时候,在分词和去停止词的时候消耗时间很长,所以专门搜了一些资料针对这个问题进行了一次优化,总结如下。

文本分词

使用jieba自带的并行分词

在分词前添加jieba.enable_parallel(4)就行了。但是我这里并没有这么做,主要是怕分词顺序出错了。

使用jieba_fast

这是一个cpython的库,使用方法和jieba一致,Github官网。官网的描述如下:

使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升。

去停止词

构建字典加速

我最开始使用的是把停止词读成列表,然后去列表里面查找,速度很慢。原先的代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def get_stopwords(self,stopwords_path):
    stop_f = open(stopwords_path, "r", encoding='utf-8')
    stop_words = list()
    for line in stop_f.readlines():
        line = line.strip()
        if not len(line):
            continue
        stop_words.append(line)
    stop_f.close()
    # print('哈工大停止词表长度为:' + str(len(stop_words)))
    return stop_words

改进之后,构建了停止词字典,速度提高了一倍左右。代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def get_stopwords(self,stopwords_path):
    stop_f = open(stopwords_path, "r", encoding='utf-8')
    stop_words = {}
    for line in stop_f.readlines():
        line = line.strip()
        if not len(line):
            continue
        stop_words[line] = line
    stop_f.close()
    # print('哈工大停止词表长度为:' + str(len(stop_words)))
    return stop_words

总结

经过以上改进,代码加速了4倍左右,提升还是很明显的。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-01-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Anaconda与Pycharm的辨析[通俗易懂]
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/172934.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/25
5630
pycharm 安装 cv2 遇到的坑[通俗易懂]
pycharm ctrl+alt+s 找到 opencv-python 直接安装 完全没问题。
全栈程序员站长
2022/09/27
1.3K0
pycharm 安装 cv2 遇到的坑[通俗易懂]
在PyCharm下使用Jupyter Notebook[通俗易懂]
点击“Cancel”取消 ,点击左下角的“Terminal”,输入“Jupyter-notebook”
全栈程序员站长
2022/09/25
1.7K0
在PyCharm下使用Jupyter Notebook[通俗易懂]
pyCharm常用插件推荐[通俗易懂]
Mongo Plugin其实就是一款基于Pycharm的可视化数据库工具,通过它能可以很方便地对数据库进行可视化操作。可以在编辑器界面的右侧打开该插件界面,如下图:
全栈程序员站长
2022/09/25
1.7K0
pyCharm常用插件推荐[通俗易懂]
pycharm直接(快速)运行 flask[通俗易懂]
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/174658.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/27
7400
pycharm直接(快速)运行 flask[通俗易懂]
pycharm控制台不见了_pycharm中文注释乱码
设置本地环境变量 修改pycharm64.exe.vmoptions文件, 添加一行: -Dfile.encoding=UTF-8
全栈程序员站长
2022/09/25
6700
pycharm控制台不见了_pycharm中文注释乱码
linux系统下codeblocks控制台打印中文乱码[通俗易懂]
1、将Settings ->Editor ->Encoding settings ->Encoding项改为UTF-8,然后确定,如下图所示:
全栈程序员站长
2022/09/14
4.1K0
linux系统下codeblocks控制台打印中文乱码[通俗易懂]
Ubuntu彻底卸载pycharm的方法[通俗易懂]
首先在解压的pycharm-2020.2.1文件夹中,查看Install-Linux-tar.txt,找到配置信息的位置(下图中蓝色标识)。
全栈程序员站长
2022/09/27
3.1K0
Ubuntu彻底卸载pycharm的方法[通俗易懂]
pycharm设置国内清华源[通俗易懂]
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/174453.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/27
24.3K0
pycharm设置国内清华源[通俗易懂]
js如何在前端控制台打印
不同方法展示效果也不同,上图是log()输出的,下图是warn()输出的以及error()输出的。
全栈程序员站长
2022/07/22
5.3K0
js如何在前端控制台打印
Mac安装pycharm,绑定anaconda3[通俗易懂]
进入官网,https://www.anaconda.com/distribution/, 选择系统和版本、下载, 傻瓜式安装, 结束后,控制台输入:conda –version, 输出版本号,表示安装成功。 如果提示conda:无法识别这一指令,表示未添加路径至bash_profile文件
全栈程序员站长
2022/09/27
1.1K0
Mac安装pycharm,绑定anaconda3[通俗易懂]
pycharm快捷键和常规设置[通俗易懂]
文件—设置—-外观与行为—外观—背景图像 本来是没想到设置背景图像的。脑子一抽换了一个,感觉发现了新大陆。(程序员鼓励师)
全栈程序员站长
2022/09/27
8820
pycharm快捷键和常规设置[通俗易懂]
pycharm设置作者和时间[通俗易懂]
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/175427.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/27
7200
pycharm设置作者和时间[通俗易懂]
pycharm的控制台主题,Pycharm控制台
本篇文章帮大家学习Pycharm控制台,包含了Pycharm控制台使用方法、操作技巧、实例演示和注意事项,有一定的学习价值,大家可以用来参考。
全栈程序员站长
2022/09/26
1.5K0
Pycharm 安装插件[通俗易懂]
IdeaVim 可以让你在 Pycharm 中操作 Vim 的功能,比如 Vim 的正常模式/插入模式/可视模式,以及各种快捷操作
全栈程序员站长
2022/09/27
6060
Pycharm 安装插件[通俗易懂]
pycharm 使用 anaconda 环境[通俗易懂]
两个方法 一: 从annaconda 内部打开 pycharm 这里有个下拉框可以选 选择你要的 anaconda环境 再launch你的pycharm
全栈程序员站长
2022/09/27
6700
pycharm 使用 anaconda 环境[通俗易懂]
PyCharm配置教程[通俗易懂]
进入 pyCharm 官网:https://www.jetbrains.com/pycharm。根据自己的操作系统选择相应的下载包。其中专业版是要付费的,可以自行购买,也可以 google 搜索激活成功教程教程。下载后根据提示安装即可
全栈程序员站长
2022/09/28
6310
PyCharm配置教程[通俗易懂]
pycharm中安装翻译插件[通俗易懂]
2、选择自己想要安装的插件点击install,然后在右边的installed一栏中就可以看到你安装的插件(我这里推荐安装一个translation,在Debug的时候会有很大帮助,帮你翻译错误)
全栈程序员站长
2022/09/25
5.3K0
pycharm中安装翻译插件[通俗易懂]
Pycharm控制台乱码问题[通俗易懂]
PS:如我般的小白都会遇到中文乱码问题,那么怎么解决呢?其实非常简单,鼠标点点就好,请看下面:
全栈程序员站长
2022/09/28
1.7K0
Pycharm控制台乱码问题[通俗易懂]
Pycharm 切换多个python版本·虚拟环境[通俗易懂]
函数打开 excel 文件,pycharm中python编译器为:anaconda3下的python.exe,见下图:
全栈程序员站长
2022/09/27
2K0
Pycharm 切换多个python版本·虚拟环境[通俗易懂]
推荐阅读
相关推荐
Anaconda与Pycharm的辨析[通俗易懂]
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验