首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python如何统计文本词汇出现次数?

问题描述: 有时遇到一个文本需要统计文本内词汇次数时候,可以用一个简单python程序来实现。...解决方案: 首先需要是一个文本文件(.txt)格式(文本内词汇以空格分隔),因为需要是一个程序,所以要考虑如何将文件打开而不是采用复制粘贴方式。...这时就要用到open()方式来打开文档,然后通过read()读取其中内容,再将词汇作为key,出现次数作为values存入字典。...key保存到字典,对文本从开始结束,循环处理每个词汇,并将词汇设置为一个字典key,将其value设置为1,如果已经存在该词汇key,说明该词汇已经使用过,就将value累积加1。...如果出处有误或侵犯原作者权益,请与我们联系删除或授权事宜。

4K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    JavaScript | 获取数组单词统计出现次数

    HTML5学堂(码匠):如何通过JavaScrip实现数组元素查找?一个数组当中,找到所有的单词,统计每个单词出现次数。...功能需求 一个自定义数组当中,包含多个单词,请使用JavaScipt获取数组每个单词,统计出每个单词出现次数。...功能分析与实现思路 可以借助对象特性,使用对象属性表示数组具体单词,使用对象属性属性值表示相应单词出现次数。 完整代码实现 ? 代码输出结果 ?...通过for循环,检测数组每个值是否obj存在,如果不存在,则设置这个属性,并将属性值赋值为1,如果当前obj已存在相应单词,则令属性值+1。 3....循环结束,即可获得到所有的单词以及相应单词个数。 4. 通过for-in循环,遍历输出对象所有属性和属性值。 备注:实现该功能需求方法有多种,也可以通过其他手段或方法来实现。

    5.1K70

    利用python内置函数,快速统计单词文本出现次数

    #coding=utf-8 import collections import os with open('str.txt') as file1:#打开文本文件 str1=file1.read...().split(' ')#将文章按照空格划分开 print "原文本:\n %s"% str1 print "\n各单词出现次数:\n %s" % collections.Counter(str1...) print collections.Counter(str1)['was']#以字典形式存储,每个字符对应键值就是文本出现次数 python collections模块包含除内置list...str1=['a','b','c','d','a','a','b','c'] m=collections.Counter(str1) print str1 print m print m['a']#字符a出现次数...print m['b']#字符b出现次数 下面选取一个英文文本对其中单词出现次数进行统计,返回某个单词出现次数 python一行代码能实现功能,就不要用两行、 链接: http

    3.2K80

    python字典统计元素出现次数简单应用

    如果需要统计一段文本每个词语出现次数,需要怎么做呢? 这里就要用到字典类型了,字典构成“元素:出现次数健值对,非常适合“统计元素次数”这样问题。...下面就用一道例题,简单学习一下: 列表 ls 存储了我国 39 所 985 高校所对应学校类型,请以这个列表为数据变量,完善 Python 代码,统计输出各类型数量。...: 1、构建一个空字典 想要构成“元素:出现次数健值对,那首先肯定就是要先生成一个空字典。...喜大普奔~~~~~ 如果wordIs里接下来取到词不是“综合”,那就是重复以上步骤; 如果取到词还是“综合”,因为健值对'综合':'1'已经字典里了,所以d.get(word, 0) 结果,就不是...通过循环操作,两行代码就生成了一个字典,里面的健值对,就是词语及其出现次数

    5.7K40

    MapReduce初体验——统计指定文本文件每一个单词出现次数

    本篇博客,小菌为大家带来则是MapReduce实战——统计指定文本文件每一个单词出现次数。 我们先来确定初始数据源,即wordcount.txt文件! ?...import java.io.IOException; /** * @Auther: 封茗囧菌 * @Date: 2019/11/11 17:43 * @Description: * 需求:一堆给定文本文件中统计输出每一个单词出现次数..., InterruptedException { /** * 代码 key 是行首字母【偏移量】-->无规律可言,行首字母所有内容最前端 * value 是一行真正数据...我们本地E盘上,出现了result文件夹 ? 打开进入并用Notepad++ 打开文件查看内容!发现统计结果已经呈现在里面了!说明我们程序运行成功了! ?...思路回顾: 每读取一行数据,MapReduce就会调用一次map方法,map方法我们把每行数据用空格" "分隔成一个数组,遍历数组,把数组每一个元素作为key,1作为value

    1.4K10

    你需要Excel常用函数都在这里!

    Excel常用函数包括逻辑函数、数学函数、文本函数、统计函数、日期函数,熟练运用好函数,能够让复杂问题简单化,可以做到批处理,加快处理各种统计、计算类工作。 下面就来一起学习吧。建议收藏!...2、统计函数 ? COUNT() COUNT(value1, [value2], ...) COUNT函数计算包含数字单元格以及参数列表数字个数。最多为255个。...WEEKDAY() WEEKDAY(serial_number,[return_type]) 返回对应于某个日期一周第几天。默认情况下,天数是 1(星期日) 7(星期六)范围内整数。...(星期六)数字 7(星期五) 17 数字 1(星期日) 7(星期六) WORKDAY() WORKDAY(start_date, days, [holidays]) 返回起始日期之前或之后、与该日期相隔指定工作日某一日期日期值...REPLACE() REPLACE(old_text, start_num, num_chars, new_text) 使用其他文本字符串根据所指定字节数替换某文本字符串部分文本

    4K32

    向量空间

    所以,“向量化”是机器学习一个重要技巧,例如在自然语言处理(NLP)统计文本出现次数,就是NLP中常见一种向量化,即创建词向量。...第二列数字表示文本,词语索引,例如“(0, 2)”2表示词语“learn”0所表示文本索引是2。...第三列数字表示该词语文本出现次数,例如“(0, 2) 1”1表示词语“learn”0所表示文本出现次数是1。 ?...本示例,每个文本词语比较少,真实项目中,每个文本词语会很多,如果多个文本,就会出现很多个特征,对于某一文本而言,会出现在很多特征值是0。...除了将词语出现次数进行向量化之外,NLP,还会实现TF-IDF向量化和哈希向量化,具体内容请参阅《数据准备和特征工程》(电子工业出版社)。

    1.2K10

    Python基础之字符串

    World print(t_str2) # asdfghh 字符串介绍 字符串就是一串字符,是编程语言汇总表示文本数据类型; Python可以使用一对双引号或者一对单引号定义一个字符串; 字符串内部如果需要使用...大小写 4.文本对齐 方法 说明 string.ljust(width) 返回一个原字符串左对齐,使用空格填充至长度width新字符 string.rjust(width) 返回一个原字符串右对齐...string.join(seq) 以string作为分隔符,将seq所有元素(字符串表示)合并为一个新字符串 字符串操作实操 字符串统计操作 t_str = "hello world hello...python" # 1.统计字符串长度 print(len(t_str)) # 24 # 2.统计某一个子字符串出现次数 print(t_str.count("hel")) # 2 print...(t_str.count("abc")) # 0 # 3.某一个子字符串出现位置 print(t_str.index("llo")) # 2 # 如果子字符串不存在,会报错 # print(t_str.index

    72420

    Python基础知识点梳理

    (obj) 列表末尾追加数据 program_list.append(“C#”) 04 增加 list.extend(list1) 列表1数据追加到列表 program_list.extend...) 统计数据列表出现次数 program_list.count(“java”) 13 排序 list.sort() 将列表升序排列 program_list.sort...”) 02 统计 len(tuple) 计算元组长度 len(program_tuple) 03 统计 tuple.count(obj) 统计数据列表出现次数...(width) 返回一个原字符串左对齐,使用空格填充宽度至长度width新字符串 06 文本对齐 str.rjust(width) 返回一个原字符串右对齐,使用空格填充宽度至长度...len(string)) 返回 str1 字符串中出现次数,如果 beg 或者 end 指定则返回指定范围内 str 出现次数 02 str.startswith(obj, beg=0

    1.4K10

    linux文本处理三剑客之awk

    = 2)取列 -F 指定分隔符 指定每一列结束标记(默认是空格,连续空格,tab键) $数字 取出某一列,注意:awk$内容一个意思 表示取出某一列 $0整行内容, {print xxx}...NR==1,NR==5 从第1行开始第5行结束 类似于sed -n '1,5p' #显示指定时间(11:02:0011:02:30)范围内ip地址和用户访问uri column -t(...:类似于 统计次数统计每个ip出现次数统计每种状态码出现次数统计系统每个用户被攻击次数统计攻击者ip出现次数 累加求和:统计每个ip消耗流量。...) mp3 1(出现次数) post 2(出现次数) #array[]++ 你要统计什么 [] 里面就是什么(某一列) awk -F"[/.]+" '{array[$2]++}END{for(...i in array)print i,array[i]}' url.txt #统计access.log 每种状态码出现次数(方式一) awk '{array[$10]++}END{for(

    79700

    MySQL内置数据库performance_schema详解(一)

    performanceschema事件只记录在本地serverperformanceschema,表数据发生变化时不会被写入binlog,也不会通过复制机制被复制其他server。...按账户和事件名称对语句执行进行汇总统计信息表 events_statements_summary_by_account_by_event_name 作用:每个账户不同事件下执行语句频率和性能表现...按主机和事件名称对语句执行进行汇总统计信息 events_statements_summary_by_host_by_event_name 作用: 查询每个主机不同事件下执行语句频率和性能表现。...按用户和事件名称对语句执行进行汇总统计信表 events_statements_summary_by_user_by_event_name 作用:查询每个用户不同事件下执行语句频率和性能表现。...存储已准备语句实例信息表 prepared_statements_instances 作用:获取已准备语句实例相关信息,包括语句文本、执行次数、错误次数等。

    1.4K30

    Mysql与时间相关统计分析

    最近项目需要统计一段日期范围内,根据每分钟、几分钟、每天分别统计汇总某些事件/指标的发生总次数,平均发生次数,因此总结了Mysql与时间处理、统计相关资料。...按分钟统计某一时间段内数据 SELECT count(1), date_format(a5_firsttime, "%H:%i") as t from ccb_alerts group by t order...by null 这个统计汇总方法,可以按照每天、工作日(周一至周五)、小时、分钟、月等维度来汇总统计。...2017-05-31补充一下支持跨天按照一定时间间隔统计汇总数量SQL,例子是按照15分钟汇总统计 select count(1), from_unixtime( round(unix_timestamp...参考资料: 1、MysqlTimstampdiff用法 2、Mysql时间、日期函数 3、Mysql Date Time Functions

    1.6K10

    Python基础之列表常见操作经典实例详解

    分享给大家供大家参考,具体如下: Python列表操作 列表是Python中使用最频繁数据类型【可以说没有之一】 一组有序项目的集合 可变数据类型【可进行增删改查】 列表可以包含任何数据类型...4、min(list):返回列表元素最小值 5、list(seq):将元组转换为列表 列表操作包含以下方法: 1、list.append(obj):列表末尾添加新对象 2、list.count...(obj):统计某个元素列表出现次数 3、list.extend(seq):列表末尾一次性追加另一个序列多个值(用新列表扩展原来列表) 4、list.index(obj):从列表找出某个值第一个匹配项索引位置...5、list.insert(index, obj):将对象插入列表 6、list.pop(obj=list[-1]):移除列表一个元素(默认最后一个元素),并且返回该元素值 7、list.remove...call last): File "<pyshell#44 ", line 1, in <module l1.index(5) ValueError: 5 is not in list C.统计一个元素出现次数

    48020

    机器学习笔记(六)——朴素贝叶斯构建一个简易情感分类器

    现实生活朴素贝叶斯算法应用广泛,如文本分类,垃圾邮件分类,信用评估,钓鱼网站检测等等;就文本分类而言,众多分类算法,朴素贝叶斯分类算法也是学习效率和分类效果较好分类器之一,因为朴素贝叶斯原理简单...,classVec createVocabList函数作用是通过set方法已经取方式返回一个包含文本中所有出现不重复词集合。...函数作用是将短评向量化,输入参数为总词汇表和某个短评,输出文本向量,向量元素包括1或0,分别表示词汇表单词是否出现在输入文本,思路是首先创建一个同词汇表等长向量,并将其元素都设置为0,...首先短评属于正面情绪概率只需要将正面情绪短评个数除以总词条个数即可;计算P(W | C1)和P(W | C0)时,需要将其分子和分母初始化,遍历输入文本时,一旦某个词语(正面情绪or负面情绪)某一文档中出现...,则该词对应个数(p1Num或p0Num)就加1,并且文本,该词条次数也相应加1。

    2.4K22

    微服务平台之EOS服务

    分布式事务范围内,可以包含其他各种图元(有些图元带补偿操作,有些图元不带补偿操作),当分布式事务范围内出现异常,会自动调用那些已成功执行过图元补偿操作。...EOS服务列表 ? 通过Govenor,可以看到一个应用EOS服务列表支持对每个具体服务进行上/下线操作,下线服务再被访问时,会返回403。...EOS服务统计 ? Govenor上还可以看到EOS服务统计信息,包括:执行次数,执行时长以及正在运行EOS服务。 3. EOS服务发布/授权 ? ?...通过请求链路可以查看一个请求是成功还是错误,请求处理时间是多少,以及它调用链路:经过了多少应用,每个应用内耗时是多少。 6. API调用统计 ?...API调用统计可以按照应用、实例组、实例、API来统计汇总请求信息,包括:响应状态码,请求数,最小响应时间,最大响应时间,平均响应时间以及响应时间总和。

    1.2K10

    「自然语言处理(NLP)」一文带你了解TF-IDF

    最后,还是帮作者点个在看吧,谢谢~~ 正文开始 1 First Blood 1、从向量化特征缺失说起 文本分词并向量化后,我们可以得到词汇表每个词各个文本形成词向量,我们将下面4个短文本做了词频统计...上面的IDF公式已经可以使用了,但是一些特殊情况会有一些小问题,比如某一个生僻词语料库没有,这样我们分母为0, IDF没有意义了。...有了IDF定义,我们就可以计算某一个词TF-IDF值了: ? 其中TF(x)指词x在当前文本词频。...3、举例说明TF-IDF计算方式 比如有这么一个简单语料库: corpus = [["我","a","e"],["我","a","c"],["我","a","b"]] 计算文本频率:统计语料中词语出现次数与所有词语总数比值...,比如在上述例子,一共有五个词(我,a,b,c,e),所有词汇总数是5,其中“c”这个字出现了1次,所以“我”文本频率是1/5,其他依次类推。

    1.5K10

    文本挖掘小探索:避孕药内容主题分析

    插入单词作为模型变量值 3.读入文本分析处理 去掉数字、特殊字符、标准符号 数据探索:大概了解下数据现状 1.根据变量值(单词)统计各个单词出现次数 2.根据单词量画词云图 3.重新转化用于聚类数据格式...根据以上数据探索词频,词作为colname,词频表示数值,每一行是帖子内容作为id标示 例如: 即每个帖子出现了某词词频次数,帖子1出现避孕药2次,优思明4次,囊中1次 R语言tm包来作处理...Document Matrix,TDM),顾名思义,TDM是一个矩阵,矩阵列对应语料库中所有的文档,矩阵行对应所有文档抽取词项,该矩阵,一个[i,j]位置元素代表词项i文档j中出现次数...) 指的是某一个给定词语该文件中出现次数。...某一特定词语IDF,可以由总文件数目除以包含该词语之文件数目,再将得到商取对数得到。 某一特定文件内高词语频率,以及该词语整个文件集合低文件频率,可以产生出高权重TF-IDF。

    1.2K60
    领券