python 词频率 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

如何从NLTK棕色语料库中的特定类别中寻找形容词频率

、

我是这方面的初学者，我想知道是否有可能从褐色语料库中的类别中提取形容词频率，并用Python创建这个形容词的列表。

浏览 2提问于2015-01-17得票数 0

回答已采纳

2回答

如何正确计算文本中的数字？

、、

我想在一篇文章中找到不同字母的频率，其中一些字母使用对话词。例如，文本同时使用“U+00E5”和“̨”( U+0328)，并且需要单独计算频率。我该怎么做？我试过使用计数器集合，使用utf8格式打开文件，使用text.split()和list(text)拆分文本字符串，但是python仍然将‘list(text)’和‘̨’计数为同一个字母！

浏览 1提问于2017-10-30得票数 8

回答已采纳

2回答

如何利用python检索弹性搜索中的词频？

、

我必须在所有与之匹配的文件中找到一个词的频率，例如：“天空”。例如:如果doc1有句话，但当我尝试实现它时： es.search(index="abc", body={"from":0, "size":0,"term vectors":{"fieldsad

浏览 1提问于2018-04-29得票数 2

1回答

Numpy:要分配的频率数组

、、、、

在具有numpy的python中，最快的方法是像进入另一个数组其中，第一个数组给出每个索引的频率(即索引0的频率为0，索引1的频率为2，索引2的频率为3，等等)，而第二个数组重复每个索引的次数与第一个数组中指定的次数相同。背景：--我用它来“enflate”(我找不到更好的词了)，k矩阵M (稀疏与否)给出了长度k频率矢量f的k f = np.array([0,2,3,1,

浏览 0提问于2018-04-16得票数 0

回答已采纳

1回答

从大型语料库中提取词频列表

、、、、

我有一个名为的大型英语语料库，我想列出所有单词的频率。意思是它们在整个语料库中出现了多少。这个频率列表应该有一些特点：非常感谢。

浏览 0提问于2019-01-13得票数 0

回答已采纳

1回答

如何计算Zipf定律中单词的频率？

、、、

集合中有4个不同的单词a、b、c、d，它们的频率顺序为a>b>c>d。使用，这四个单词的频率是多少？有没有关于Zipf定律的公式？我研究过，在Zipf定律中，最频繁的词发生的频率大约是第二频繁词的两倍。

浏览 1提问于2015-05-24得票数 1

回答已采纳

2回答

用Python计算大文本中多词词的频率

、、、、

我有一本字典，里面有近百万多个词(包含空格的词).这看起来就像'multilayer ceramic', 'multilayer我想用许多千兆字节的文本来统计它们的频率。

浏览 1提问于2020-04-14得票数 0

回答已采纳

1回答

用一个真正的词完成匈牙利词干

、

我对Python的NLTK包和NLP也很陌生(我通常在R中工作，但为了NLP的目的，可能Python更能抓取)。我的第一个想法是将最常见的词或最短的单词(或

浏览 0提问于2015-06-12得票数 3

1回答

情绪分析中正、负频率的减法

、

在积极的消极情绪分析中，用数学的方法来计算单词的正频率和负频率，而不是保持一个词的正频率和负频率的分数，这样做是否有意义呢？这样，每个单词都会有一个积极的“热”，其中一个很高的值表示一个非常肯定的词，反之亦然。这种方法将如何改变模型的性能？

浏览 0提问于2021-02-24得票数 0

2回答

正规化餐厅菜式清单

、、、

我正试图使盘子“正常化”(错误的词)。我想要“拉猪肉”和“拉猪肉三明治”和"Jumbo Pork Slider“都映射到一个单一的菜，”拉猪肉“。到目前为止，我已经开始使用Python使用NLTK，并且在频率分布等方面玩得很开心。谢谢

浏览 3提问于2015-08-26得票数 5

回答已采纳

1回答

我已经做了代码从wordnet获得同义词，它为每个单词提供了完整的同义词列表。因此，我希望我的代码能够根据句子从同义词列表中选择合适的同义词。例如:句子是：“我是他的哥哥”，我必须根据这个句子找出每个单词的最佳同义词。“长者”、“曾经”、“前辈”、“曾经”、“曾经”、“从前”、“诚实对上帝”、“年老”、“老”、“前辈”、“确定--足够”、“老”、“有时”、“诚实-上帝”、“昆坦”、“老人” 在这个句子中，最好的同义

浏览 2提问于2017-05-25得票数 0

2回答

使用python比较两个网页最简单的方法是什么？

、、

您好，我想比较两个网页使用python脚本。我怎样才能做到这一点？提前感谢！

浏览 5提问于2011-03-09得票数 3

回答已采纳

1回答

在SOLR中，原始频率与建议频率不匹配。

"whs“的输出为”- (73)“，这是提出的”比实际原始频率(94)变化“的建议。任何使两者频率相同的方法<field name="gram" type="textSpell" indexed

浏览 3提问于2015-03-04得票数 3

1回答

快速创建表中键计数的方法

、、

我有一个熊猫系列的词频率为一个特定的词跨多个文本摘录，例如10，5，10，5，3，3，2，1.我想要产生一个2列的表格，我想把频率这个词作为键，以及这个频率对它发生的次数。

浏览 1提问于2013-08-05得票数 2

回答已采纳

1回答

如何让wordcloud2显示最高频词

、、

词云首先显示频率最高的词，而wordcloud2似乎是从不同频率的桶中采样，因此高频词不一定会出现。wordcloud2的一些功能很酷，但是我怎么才能让它显示所有最常用的单词呢？

浏览 3提问于2017-04-15得票数 0

1回答

德语词干词干/词缀化

、、、

我在一个文本语料库中收集了大量的德语单词及其频率(所以像"der“、"die”、"das“这样的词有很高的频率，而术语类单词的频率很低)。同一词的不同形式，如复数形式或第三人称形式确实出现，但不能保证每个单词都会出现这种情况。我试过使用spacy.load('de_core_news_sm')，但它说它找不到模型。也许还有第二个问题:当涉及到相关词时，我能做些什么来确定使用这些频率的单词的可靠受欢迎程度？例如，单数形式

浏览 0提问于2021-09-07得票数 1

1回答

将句子中的词转换成向量形式准备模型

、、

我想要构建一个简单的分类器，它可以对文本是question还是simple message进行分类。我理解逻辑回归，可以创建一个简单的神经网络。我有英文，日文，韩文，泰文的标签输入数据。在将数据输入分类器之前，如何转换这些数据？

浏览 0提问于2018-06-12得票数 1

回答已采纳

1回答

创建没有整数值的节点networkX

、、

我想从以下几个方面做出有向图：对应于每个刺激词的字典列表，其中包含:key= response - word和value，其中的值是响应的频率，因此，刺激词和响应词之间的边缘以频率作为它们的权重

浏览 4提问于2014-12-07得票数 0

3回答

在NLTK中实现词袋朴素贝叶斯分类器

、、、、

它不考虑单词的频率作为要查看的特征(“词袋”)。似乎认为，使用内置的NLTK分类器无法做到这一点。真的是这样吗？如何使用NLTK进行频率/词袋NB分类？

浏览 0提问于2012-04-11得票数 24

回答已采纳

5回答

使用Python自动从上下文中选择标记

、

如何使用Python从文章或用户的帖子中选择标记？删除一些常见的单词，并选择列表中的前10个单词作为标签。如果上面的方法是好的，什么库可以检测哪些词是常见的，比如“，if，you等”，以及哪些是描述性单词？

浏览 1提问于2009-11-21得票数 4

回答已采纳

点击加载更多

如何从NLTK棕色语料库中的特定类别中寻找形容词频率

如何正确计算文本中的数字？

如何利用python检索弹性搜索中的词频？

Numpy:要分配的频率数组

从大型语料库中提取词频列表

如何计算Zipf定律中单词的频率？

用Python计算大文本中多词词的频率

用一个真正的词完成匈牙利词干

情绪分析中正、负频率的减法

正规化餐厅菜式清单

使用wordnet获得句子中单词的最佳同义词

使用python比较两个网页最简单的方法是什么？

在SOLR中，原始频率与建议频率不匹配。

快速创建表中键计数的方法

如何让wordcloud2显示最高频词

德语词干词干/词缀化

将句子中的词转换成向量形式准备模型

创建没有整数值的节点networkX

在NLTK中实现词袋朴素贝叶斯分类器

使用Python自动从上下文中选择标记

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐