腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
找到
n-gram
的
频率
并
使用
R
在
单词
云中
进行
可视化
?
、
我有一列dataframe,其中包含文本字符串,我想对其
进行
一些分析。我想知道最常用
的
单词
是什么,并将其
可视化
到词
云中
。对于单个
单词
(Unigram),我已经设法做到了,但我无法使我
的
代码
在
n-gram
(例如,二元语法、三元语法)下工作。在这里,我已经包含了我
的
unigram代码。我愿意调整我
的
代码以使其工作,或者拥有一段全新
的
代码。我该怎么做才是最好
的
呢?
浏览 10
提问于2020-09-27
得票数 0
回答已采纳
1
回答
词云-获取前N个词频
我有一个包含多列
的
表。其中一列是“采取
的
行动”。该列
的
每一行都是一个句子。我
的
任务是确定actions taken列中哪些最热门
的
单词
使用
了最多
的
单词
。 我正在
使用
单词
云来
可视化
这一点。
单词
云给了我一个额外
的
功能来
使用
停用词,这对我
的
任务是必不可少
的
。
单词
cloud还为我提供
浏览 0
提问于2019-06-14
得票数 0
2
回答
使用
java hashmap
进行
n元语法建模
、
、
、
我需要对
n-gram
(n个
单词
的
序列)及其上下文(出现在
n-gram
附近
的
单词
及其
频率
)
的
集合
进行
建模。= new HashMap<String, Integer>();然后,对于所有不同
的
n-gram
的
计数,我
使用
另一个Hashmap,例如 HashMap<String, Ngram> ngrams= new HashMap<
浏览 2
提问于2011-05-05
得票数 6
1
回答
标签云数据后台
我希望能够从来自任何数量不同来源
的
自由文本生成标签云。为了清楚起见,我不是在谈论
如何
在发现关键标签/短语后显示标签云,我希望能够发现有意义
的
短语本身……
在
PHP/MySQL堆栈上更好。如果我必须自己做这件事,我会从为
单词
/短语建立某种索引开始,给出任何
单词
/短语
的
“正常”
频率
。例如,“君士坦丁堡”平均每100万个
单词
中出现一次(正常
频率
为"0.000001"
浏览 0
提问于2010-04-09
得票数 1
1
回答
从文本语料库中提取给定
单词
的
搭配- Python
、
、
、
、
我正在尝试找出
如何
从文本中提取特定
单词
的
搭配。例如:
在
整个文本语料库中,哪些
单词
与
单词
"hobbit“具有统计意义
的
搭配?我期望得到一个类似于
单词
列表(搭配)或元组(我
的
单词
+其搭配)
的
结果。我知道
如何
使用
nltk制作二元和三元语法,也知道
如何
只选择包含我感兴趣
的
单词
的
二元或三元语法
浏览 10
提问于2017-08-17
得票数 1
2
回答
如何
使用
wordnet来发现两个网页之间
的
语义关系?
、
、
我想要一些方法来确定两个网页
在
语义上是否相关。我
在
谷歌上搜索了一下,发现了一个叫做WordNet (一个大型词法数据库)
的
东西。我想知道
如何
使用
python和WordNet来实现这一点?
浏览 0
提问于2011-05-27
得票数 0
回答已采纳
3
回答
n到底是什么?
我
在
SO:上
找到
了之前
的
问题。操作员给出了这个例子,
并
询问它是否正确:什么是好
的
nGram值?
在
使用</em
浏览 3
提问于2013-08-13
得票数 29
回答已采纳
1
回答
我
如何
将我
的
字符串值乘以一个整数来表示一个
单词
云?
、
我正在尝试从我
的
数据帧中创建一个
单词
云,如下所示 Borough Minor Text 2019 Bexley Burglary - Residential 130 Bexley Drug Trafficking 5 我想在
单词
云中
可视化
次要文本列中最常见
的
项目,但问题是,
频率
在
'2019‘列
浏览 16
提问于2021-11-14
得票数 1
回答已采纳
2
回答
查找哪些
单词
可能与
单词
X一起出现
、
、
、
、
找出某个
单词
X附近出现
频率
最高
的
单词
的
最好方法是什么?(注:不是哪些
单词
与
单词
X最相似)我试着只
在
一个维度上寻找与X更接
浏览 0
提问于2017-10-28
得票数 0
1
回答
如何
在
R
中
找到
并
绘制
n-gram
的
频率
?
、
、
、
我要做
的
是找出多个
单词
/短语
的
频率
,并将它们按年绘制
在
图表中。a_corpus <- corpus(df, text = "text") freq_grouped_year
浏览 45
提问于2021-05-14
得票数 0
回答已采纳
1
回答
基于Weka
的
句子分类
、
、
我想用Weka对句子
进行
分类。我
的
特征是句子术语(词)和每个术语
的
词性标签。我不知道
如何
计算属性,因为如果每个术语都表示为一个特征,那么每个实例(句子)
的
特征数量就会变得不同。并且,如果句子中
的
所有
单词
都作为一个特征出现,那么
如何
将
单词
与它们
的
词性标签联系起来。 你知道我该怎么做吗?
浏览 0
提问于2012-09-06
得票数 1
回答已采纳
6
回答
确定特定术语
的
词频
、
、
、
、
我是一位非计算机科学专业
的
学生,我在做一篇历史论文,其中涉及到确定一些文本中特定术语
的
频率
,然后绘制这些
频率
,以确定变化和趋势。虽然我已经知道
如何
为给定
的
文本文件确定
单词
频率
,但我处理
的
是(相对
的
,对我来说)大量
的
文件(>100个),而且出于一致性
的
考虑,我希望将
频率
计数中包含
的
单词
限制
在
一个特定
浏览 0
提问于2008-11-24
得票数 14
回答已采纳
1
回答
如何
仅在文本文件/ csv条目的每一行中
找到
所有n元语法?
、
from nltk import *ngram_counts,但现在是文本文件
的
一行):例如。jump top left now wow can see every place 上面的第一个代码部分是我试图查找特定大小
的
所有
n-gram
(
在
本例中为3),但它将文本文件中
的
浏览 4
提问于2017-06-27
得票数 1
2
回答
N-gram
:解释+2个应用
、
、
、
哪种类型
的
n-gram
更适合大多数用途?词级还是字符级
n-gram
?
如何
在PHP中实现n-gram-tokenizer? 词级二元组: 1,1,1,1,1
如何
<
浏览 35
提问于2009-06-23
得票数 18
回答已采纳
1
回答
Lucene:基于字典术语对文档
进行
索引/实现自定义分析器
、
、
、
、
我有大量
的
大学网页(文档),我
的
目标是
使用
维基百科
的
术语词典在给定
的
文档中查找这些术语。最后,我应该计算每个维基百科术语
的
文档
频率
。">1960 International Gold Cup</t>我正在尝试
使用
Lucene来实现这一点。方法1:
使用
ShingleAna
浏览 2
提问于2014-02-03
得票数 2
2
回答
面向特征工程
的
Ngram阶数选择
、
、
我正在研究文本分类
的
特征工程。我被困在了选择功能
的
点上。大多数文献说,将文本标记化并将其用作特征(删除停用词、标点符号),但这样就会错过多个
单词
,如(肺癌)或短语。所以问题是,我
如何
决定ngram
的
顺序,并将它们视为特征?
浏览 0
提问于2016-08-13
得票数 0
1
回答
R
中max.word参数对WordCloud2
的
等价性
、
我正在尝试
使用
Wordcloud2
在
R
中构建一个order云,以利用闪亮
的
优势。我必须做
的
一件非常重要
的
事情是保持一个固定
的
最大字数来表示字云(例如150)。因此,不管可用
单词
的
数量
如何
,我只想在
云中
可视化
最多150个
单词
。
在
Wordcloud中,这个参数max.words=是可用
的
。但是,我在为Wordcloud2
找到
浏览 8
提问于2016-10-17
得票数 2
回答已采纳
1
回答
随着时间
的
推移,谷歌
如何
在字典中确定word
的
使用
?
当我们
在
google上
的
字典中查找特定
的
单词
时,它还在底部显示了一个类似这样
的
图表,它告诉我们随着时间
的
推移搜索
单词
的
使用
情况。谷歌是
如何
决定其用途
的
?它
使用
的
是什么引用?
浏览 1
提问于2020-03-01
得票数 0
1
回答
R
中引用表中包含字符串
的
行
的
求和
、
、
、
、
对于表中作为行存在
的
字符串列表,我希望
在
R
中
的
另一个数据表
的
行中标识这些字符串
的
频率
,同时,我希望对包含这些字符串
的
行
的
值
进行
求和。例如,包含字符串列表
的
引用表如下所示:|String ||D
浏览 4
提问于2020-07-02
得票数 0
回答已采纳
1
回答
字云不能正确显示
单词
的
频率
。
、
、
、
我已经
在
单词
云中
绘制了我
的
文本数据。(实际上,我复制了数据框架中每个
单词
发生
的
次数,然后将其输入函数):然后,我
使用
了以下代码来
可视化
文本数据: def generate_wordcloud(text): # optionally add: stopwords=STOPWORDS and大多数
浏览 0
提问于2019-02-07
得票数 9
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
NLP中关键字提取方法总结和概述
FastText的内部机制
实例教程:如何用自然语言处理来预测垃圾邮件?
数据分享|R语言豆瓣数据文本挖掘 神经网络、词云可视化和交叉验证
自然语言处理:语言模型与评价方法
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券