python文件操作案例之统计词频

jiankang666

发布于 2022-12-05 13:48:25

5960

博主简介：原互联网大厂tencent员工，网安巨头Venustech员工，阿里云开发社区专家博主，微信公众号java基础笔记优质创作者，csdn优质创作博主，创业者，知识共享者,欢迎关注，点赞，收藏。

一、背景

Python 是一门易于学习、功能强大的编程语言。它提供了高效的高级数据结构，还能简单有效地面向对象编程。Python 优雅的语法和动态类型以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的理想语言。下面我们来介绍一下python的文件统计词频相关知识。

二、jieba用法

jieba是Python中一个重要的第三方中文分词函数库。由于jieba库是第三方库，不是Python安装包自带的，因此，需要通过pip指令进行安装，pip安装命令如下：

C:\>pip3 install jieba

安装完成后，可调用库中的lcut()函数进行分词，例如：

>>>import jieba
>>>jieba.lcut('我们正在努力学习Python语言')
['我们', '正在', '努力学习', 'Python', '语言']

三、统计词频案例

例：统计《三国演义》中人物出场次数。需要自行下载一个三国演义.txt文件，或者创建一个，填写一些名字信息。

import jieba                        #导入jieba库
excludes = {"将军","却说","主公","荆州","二人","不可","不能","如此"}        #词库
with open("三国演义.txt", "r")as file:
    txt =file.read()                        #打开文件并读取文件内容
words = jieba.lcut(txt)                    #进行分词，将结果放入words列表中
counts = {}                        #定义字典用于存储词语和计数器
for word in words:                        #遍历words
    if len(word) == 1:                         #排除单个字符的分词结果
        continue
#同一人物不同名字的处理功能
    elif word == "诸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "关公" or word == "云长":
        rword = "关羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "刘备"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"
    else:
        rword = word
    counts[rword] = counts.get(rword,0) + 1                #计数器累加
for word in excludes:                        #排除词库中内容
    del(counts[word])
items = list(counts.items())                    #将字典元素转换为列表
items.sort(key=lambda x:x[1], reverse=True)             #排序
for i in range(5):                        #输出前5项
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

结果如下。