如何找到n-gram的频率并使用R在单词云中进行可视化？

、

我有一列dataframe，其中包含文本字符串，我想对其进行一些分析。我想知道最常用的单词是什么，并将其可视化到词云中。对于单个单词(Unigram)，我已经设法做到了，但我无法使我的代码在n-gram(例如，二元语法、三元语法)下工作。在这里，我已经包含了我的unigram代码。我愿意调整我的代码以使其工作，或者拥有一段全新的代码。我该怎么做才是最好的呢？

浏览 10提问于2020-09-27得票数 0

回答已采纳

1回答

词云-获取前N个词频

我有一个包含多列的表。其中一列是“采取的行动”。该列的每一行都是一个句子。我的任务是确定actions taken列中哪些最热门的单词使用了最多的单词。我正在使用单词云来可视化这一点。单词云给了我一个额外的功能来使用停用词，这对我的任务是必不可少的。单词cloud还为我提供

浏览 0提问于2019-06-14得票数 0

2回答

使用java hashmap进行n元语法建模

、、、

我需要对n-gram (n个单词的序列)及其上下文(出现在n-gram附近的单词及其频率)的集合进行建模。= new HashMap<String, Integer>();然后，对于所有不同的n-gram的计数，我使用另一个Hashmap，例如 HashMap<String, Ngram> ngrams= new HashMap<

浏览 2提问于2011-05-05得票数 6

1回答

标签云数据后台

我希望能够从来自任何数量不同来源的自由文本生成标签云。为了清楚起见，我不是在谈论如何在发现关键标签/短语后显示标签云，我希望能够发现有意义的短语本身……在PHP/MySQL堆栈上更好。如果我必须自己做这件事，我会从为单词/短语建立某种索引开始，给出任何单词/短语的“正常”频率。例如，“君士坦丁堡”平均每100万个单词中出现一次(正常频率为"0.000001"

浏览 0提问于2010-04-09得票数 1

1回答

从文本语料库中提取给定单词的搭配- Python

、、、、

我正在尝试找出如何从文本中提取特定单词的搭配。例如:在整个文本语料库中，哪些单词与单词"hobbit“具有统计意义的搭配？我期望得到一个类似于单词列表(搭配)或元组(我的单词+其搭配)的结果。我知道如何使用nltk制作二元和三元语法，也知道如何只选择包含我感兴趣的单词的二元或三元语法

浏览 10提问于2017-08-17得票数 1

2回答

如何使用wordnet来发现两个网页之间的语义关系？

、、

我想要一些方法来确定两个网页在语义上是否相关。我在谷歌上搜索了一下，发现了一个叫做WordNet (一个大型词法数据库)的东西。我想知道如何使用python和WordNet来实现这一点？

浏览 0提问于2011-05-27得票数 0

回答已采纳

3回答

n到底是什么？

我在SO：上找到了之前的问题。操作员给出了这个例子，并询问它是否正确：什么是好的nGram值?在使用</em

浏览 3提问于2013-08-13得票数 29

回答已采纳

1回答

我如何将我的字符串值乘以一个整数来表示一个单词云？

、

我正在尝试从我的数据帧中创建一个单词云，如下所示 Borough Minor Text 2019 Bexley Burglary - Residential 130 Bexley Drug Trafficking 5 我想在单词云中可视化次要文本列中最常见的项目，但问题是，频率在'2019‘列

浏览 16提问于2021-11-14得票数 1

回答已采纳

2回答

查找哪些单词可能与单词X一起出现

、、、、

找出某个单词X附近出现频率最高的单词的最好方法是什么？(注:不是哪些单词与单词X最相似)我试着只在一个维度上寻找与X更接

浏览 0提问于2017-10-28得票数 0

1回答

如何在R中找到并绘制n-gram的频率？

、、、

我要做的是找出多个单词/短语的频率，并将它们按年绘制在图表中。a_corpus <- corpus(df, text = "text") freq_grouped_year

浏览 45提问于2021-05-14得票数 0

回答已采纳

1回答

基于Weka的句子分类

、、

我想用Weka对句子进行分类。我的特征是句子术语(词)和每个术语的词性标签。我不知道如何计算属性，因为如果每个术语都表示为一个特征，那么每个实例(句子)的特征数量就会变得不同。并且，如果句子中的所有单词都作为一个特征出现，那么如何将单词与它们的词性标签联系起来。你知道我该怎么做吗？

浏览 0提问于2012-09-06得票数 1

回答已采纳

6回答

确定特定术语的词频

、、、、

我是一位非计算机科学专业的学生，我在做一篇历史论文，其中涉及到确定一些文本中特定术语的频率，然后绘制这些频率，以确定变化和趋势。虽然我已经知道如何为给定的文本文件确定单词频率，但我处理的是(相对的，对我来说)大量的文件(>100个)，而且出于一致性的考虑，我希望将频率计数中包含的单词限制在一个特定

浏览 0提问于2008-11-24得票数 14

回答已采纳

1回答

如何仅在文本文件/ csv条目的每一行中找到所有n元语法？

、

from nltk import *ngram_counts，但现在是文本文件的一行)：例如。jump top left now wow can see every place 上面的第一个代码部分是我试图查找特定大小的所有n-gram(在本例中为3)，但它将文本文件中的

浏览 4提问于2017-06-27得票数 1

2回答

N-gram:解释+2个应用

、、、

哪种类型的n-gram更适合大多数用途？词级还是字符级n-gram？如何在PHP中实现n-gram-tokenizer？词级二元组: 1，1，1，1，1如何<

浏览 35提问于2009-06-23得票数 18

回答已采纳

1回答

Lucene:基于字典术语对文档进行索引/实现自定义分析器

、、、、

我有大量的大学网页(文档)，我的目标是使用维基百科的术语词典在给定的文档中查找这些术语。最后，我应该计算每个维基百科术语的文档频率。">1960 International Gold Cup</t>我正在尝试使用Lucene来实现这一点。方法1:使用ShingleAna

浏览 2提问于2014-02-03得票数 2

2回答

面向特征工程的Ngram阶数选择

、、

我正在研究文本分类的特征工程。我被困在了选择功能的点上。大多数文献说，将文本标记化并将其用作特征(删除停用词、标点符号)，但这样就会错过多个单词，如(肺癌)或短语。所以问题是，我如何决定ngram的顺序，并将它们视为特征？

浏览 0提问于2016-08-13得票数 0

1回答

R中max.word参数对WordCloud2的等价性

、

我正在尝试使用Wordcloud2在R中构建一个order云，以利用闪亮的优势。我必须做的一件非常重要的事情是保持一个固定的最大字数来表示字云(例如150)。因此，不管可用单词的数量如何，我只想在云中可视化最多150个单词。在Wordcloud中，这个参数max.words=是可用的。但是，我在为Wordcloud2找到

浏览 8提问于2016-10-17得票数 2

回答已采纳

1回答

随着时间的推移，谷歌如何在字典中确定word的使用？

当我们在google上的字典中查找特定的单词时，它还在底部显示了一个类似这样的图表，它告诉我们随着时间的推移搜索单词的使用情况。谷歌是如何决定其用途的？它使用的是什么引用？

浏览 1提问于2020-03-01得票数 0

1回答

R中引用表中包含字符串的行的求和

、、、、

对于表中作为行存在的字符串列表，我希望在R中的另一个数据表的行中标识这些字符串的频率，同时，我希望对包含这些字符串的行的值进行求和。例如，包含字符串列表的引用表如下所示：|String ||D

浏览 4提问于2020-07-02得票数 0

回答已采纳

1回答

字云不能正确显示单词的频率。

、、、

我已经在单词云中绘制了我的文本数据。(实际上，我复制了数据框架中每个单词发生的次数，然后将其输入函数)：然后，我使用了以下代码来可视化文本数据： def generate_wordcloud(text): # optionally add: stopwords=STOPWORDS and大多数

浏览 0提问于2019-02-07得票数 9

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

词云-获取前N个词频

使用java hashmap进行n元语法建模

标签云数据后台

从文本语料库中提取给定单词的搭配- Python

如何使用wordnet来发现两个网页之间的语义关系？

n到底是什么？

我如何将我的字符串值乘以一个整数来表示一个单词云？

查找哪些单词可能与单词X一起出现

如何在R中找到并绘制n-gram的频率？

基于Weka的句子分类

确定特定术语的词频

如何仅在文本文件/ csv条目的每一行中找到所有n元语法？

N-gram:解释+2个应用

Lucene:基于字典术语对文档进行索引/实现自定义分析器

面向特征工程的Ngram阶数选择

R中max.word参数对WordCloud2的等价性

随着时间的推移，谷歌如何在字典中确定word的使用？

R中引用表中包含字符串的行的求和

字云不能正确显示单词的频率。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐