腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
将语料库分成N个单词,每个单词在R中
出现的次数作为特征,构建一个词袋模型。请问如何使用词袋模型进行文本分类?
相关搜索:
如何获取每个语料库的前25个单词(在R中)?
使用R在语料库中组合两个单词
将字符串拆分成n个单词的数组
将n个单词的列表拆分为n个单个单词的列表
使用R,regex在语料库中查找押韵的单词
在R中搜索单词
在R中,我如何计算语料库中的特定单词?
将每个单词放到新行中
在python中,如何将每个单词映射到后面的单词列表?
将单词拆分成字母并获取每个字母的数据?
在python中的N个单词之后拆分HTML
删除行中的前n个单词
在R中精确匹配一个单词
R包选择大量的单词保存在文本语料库中
在整个语料库中对多个单词进行标记
R-如何:对于某个列表中的每个单词,计算该单词在一个包含3000个单词的列中出现的频率
识别语料库中每个文档唯一的单词的更好方法
将前一个单词和后一个单词连接到与R中的条件匹配的单词
sscanf - 在一个句子中得到第n个单词
Postgres:从列中检索前n个单词
相关搜索:
如何获取每个语料库的前25个单词(在R中)?
使用R在语料库中组合两个单词
将字符串拆分成n个单词的数组
将n个单词的列表拆分为n个单个单词的列表
使用R,regex在语料库中查找押韵的单词
在R中搜索单词
在R中,我如何计算语料库中的特定单词?
将每个单词放到新行中
在python中,如何将每个单词映射到后面的单词列表?
将单词拆分成字母并获取每个字母的数据?
在python中的N个单词之后拆分HTML
删除行中的前n个单词
在R中精确匹配一个单词
R包选择大量的单词保存在文本语料库中
在整个语料库中对多个单词进行标记
R-如何:对于某个列表中的每个单词,计算该单词在一个包含3000个单词的列中出现的频率
识别语料库中每个文档唯一的单词的更好方法
将前一个单词和后一个单词连接到与R中的条件匹配的单词
sscanf - 在一个句子中得到第n个单词
Postgres:从列中检索前n个单词
页面内容是否对你有帮助?
有帮助
没帮助
相关·
内容
文章
问答
(9999+)
视频
沙龙
1
回答
将
语料库
分成
N
个
单词
,
每个
单词
在
R
中
、
我需要将一
个
语料库
分成
N
个
单词
。假设这是我的
语料库
: corpus <- "I need to break this corpus into chunks of ~3 words each" 解决此问题的一种方法是
将
语料库
转换为数据帧chunk <- 3
r
<- rep(1:ceiling(
n
浏览 7
提问于2020-06-23
得票数 1
回答已采纳
2
回答
单句分类
、
、
、
、
我有4
个
不同的类别,我也有大约3000
个
单词
,属于
每个
类别。现在,如果一
个
新的句子出现,我可以
将
句子拆
分成
单词
,并获得更多与之相关的
单词
。所以说,对于
每个
新句子,我可以从句子中生成20-30
个
单词
。现在,
将
这个句子归入上述类别的最好方法是什么?我知道一袋
单词
效果很好。我还研究了LDA,但它适用于文档,因为我有一
个
单词</
浏览 1
提问于2015-03-11
得票数 0
1
回答
在
Python
中
创建稀疏的
单词
矩阵(
单词
包)
、
我
在
一
个
目录中有一
个
文本文件列表。Corpus - "aaa", "abc", "cccc", "
浏览 2
提问于2017-10-26
得票数 4
回答已采纳
1
回答
使用nltk对
单词
进行标记化时,防止
在
撇号处拆分
、
我正在使用nltk
将
句子拆
分成
单词
。例如:标记化
在
拆分
单词
边界时效果很好,即从
单词
中
拆分标点符号,但有时会过
浏览 0
提问于2016-01-11
得票数 15
回答已采纳
4
回答
文本挖掘-最常用的词,规范化
、
我是一名研究人员,有大约17,000
个
自由文本文档,其中大约30-40%与我的结果相关。有没有开源工具可以用来确定与结果相关的最常见的
单词
(甚至是短语,但不是必需的),并对已经出现的
单词
的频率进行归一化?所有的文档都是由卫生保健工作者编写的,因此规范化
将
很重要,因为两
个
文档都有技术语言,并且还希望筛选出" the“、" it”等词。我试图做的是使用正则表达式或NLP构建一
个
工具,然后使用这些
单词
来识别基于新文档的结果。我不打算花大量的时间定制一<em
浏览 3
提问于2013-03-22
得票数 4
1
回答
如何使用Wordnet
在
R
中进行词汇化?
、
、
我想在
R
中使用Wordnet的getLemma函数对
语料库
进行词汇化,但我不太确定如何使用它。terms <- getIndexTerms("NOUN", 5, filter)我的问题是,我有一
个
包含5000
个
单词
的文档,在这种情况下,我希望<e
浏览 3
提问于2013-02-19
得票数 0
2
回答
不分割包含\
n
分隔词的Python字符串文本文件
、
、
我得到了一
个
很长的.txt文件,当read返回一
个
长字符串时,它是一
个
由\
n
分隔的大型
单词
语料库
,如下所示: \na+\nabound\nabounds\nabundance\nabundant\naccessable我需要将这个字符串拆
分成
这些
单词
的列表,但我通常用于.csv文件的命令都不起作用。我尝试过剥离、替换()、拆分()、拆分行(),没有任何东西可以
将
这些
单词
列
在
列表
中
。
浏览 17
提问于2019-04-09
得票数 1
1
回答
为什么在这门NLP课程
中
,“堆”的定律方程看起来如此不同?
、
、
堆定律基本上是一
个
经验函数,它表示文档
中
的不同
单词
数量随着文档长度的增长而增长。维基百科链接
中
给出的公式是 📷 用对数给出的方程显然也是堆定律。增
浏览 0
提问于2019-04-09
得票数 1
回答已采纳
1
回答
如何将我的
单词
列表转换为可用类型,以便删除停用
单词
列表
、
、
我
将
单词
转换为词根,并建立了一
个
包含10万
个
文本的
语料库
,但
每个
文本的格式都不适合删除停用的
单词
我尝试了.join函数,但它为
每个
字母添加了'‘和'’ corr=[] m.group(0))), te.CUST_TXT[a]) corr.append(rew) 上面我
浏览 7
提问于2019-09-18
得票数 0
1
回答
如何将不同维度的两
个
特征结合起来?
、
、
因此,如果文档被表示为
单词
袋,那么我们将有一
个
n
维特征,其中
n
个
单词
在
文档
中
。现在,如果我决定我也想使用文档长度作为特性,那么这个特性的维度(长度)将是一
个
维度。那么,我如何结合使用这两
个
特征(长度和包字)。现在应该
将
特征考虑为二维(
n
维矢量(弓形)和一维特征(长度)).如果这不起作用,我如何组合这些功能。在这方面有什么建议也会有帮助吗?
浏览 3
提问于2012-09-08
得票数 1
1
回答
构建基本句子的常用词数据集
、
、
因此,我正在制作一
个
“冰箱磁铁”交互式的,我试图找出一
个
有效的数据集的
单词
,以供用户拖动。 以及在哪里找到更有效的
单词
集的想法
浏览 0
提问于2012-05-22
得票数 0
回答已采纳
2
回答
如何在熊猫str.contains中使用
单词
边界?
、
、
、
、
以下代码错误地
将
"Said Business School“列
在
类别
中
,因为它是‘Sa.s’。如果我能创造一
个
文字边界,它就能解决这个问题。把这件事搞砸后再放个地方。我用的是熊猫,它们是dfs。gprivate_
n
= ('Co|Inc|Llc|Group|Ltd|Corp|Plc|Sa |Insurance|Ag|As|Media|&|Corporation') df.loc[df[df.Name.str.contains('{0}'.forma
浏览 4
提问于2014-03-12
得票数 6
回答已采纳
2
回答
向LDA输入文件
、
假设我有
N
个
文本文档,并以以下两种方式运行LDA, 我也知道要选择多少
个
主题;
在
第一种情况下,我可以选择
N
作为主题的数量(假设
每个
文档都是一
个
主题),但是如果我单独
在
每个
文档上运行它,不确定如何
浏览 5
提问于2014-10-03
得票数 1
回答已采纳
2
回答
Python:找出列表
中
的某些
单词
是真正的英语
单词
还是接近英语
单词
、
、
、
我正在解决一
个
问题,其中我得到了很多
单词
,并列出了它们的出现频率。,而像'infonewsletter’这样的
单词
本身并不是真正的英语
单词
,但我们可以看到它们实际上是英语
中
的
单词
,并且有一定的意义。但是,像'OnKxnXecCINJ‘这样的
单词
没有任何意义(实际上它们是来自其他字符集的
单词
,但我
在
练习
中
忽略了它们,并坚持使用英语)-我可以将它们作为垃圾丢弃
在
Python
浏览 0
提问于2016-02-29
得票数 2
2
回答
将
句子列表拆分为
单词
,并将它们附加到字典
中
、
我正在尝试
将
一
个
句子拆
分成
单词
,并将
每个
单词
作为句子的值。vocab[i].append(line[0].lower().split()) return vocab 但是这段代码返回一
个
键错误当我把 vocab[i] = (line[0].lower().split()) 对于
每个
键,我都得到相同的值。 我的
语料库
是句子的数据名。
浏览 11
提问于2021-03-29
得票数 0
1
回答
构建一
个
由一百万
个
单词
组成的后缀树,并使用测试集对其进行查询,以找到最接近的匹配并进行分类
、
、
、
、
我试图解决的问题是:我有一百万
个
单词
(多种语言)和一些类别,它们被归类为我的训练
语料库
。给定
单词
的测试
语料库
(数量肯定会随着时间的推移而增加),我希望
在
训练
语料库
中
获得这些
单词
中
每个
单词
的最接近匹配,从而将该
单词
归类为其最接近匹配的相应类别。现在,我想在训练
语料库
(O(
n
))的连接上构建一
个
后缀树,并查询测试<
浏览 46
提问于2019-06-26
得票数 1
4
回答
如何在分布式机器上划分一
个
非常大的
单词
列表搜索以获得更快的答案
、
、
、
这更多的是一
个
架构问题,您将如何在规模上解决这个问题。["This", "a", "test", "of", "two", "words","what","words","blah
浏览 3
提问于2017-02-20
得票数 0
回答已采纳
2
回答
Regexp匹配
单词
中
的空格
、
我正在寻找一
个
正则表达式,用于
将
像"w o
r
d","o v e
r
f low“这样的
单词
分别替换为"word”和"overflow",遍及输入字符串(包括开头和结尾)。
浏览 0
提问于2012-11-23
得票数 1
2
回答
多语言搜索匹配
、
、
、
、
类似于日语
中
的名字拓海和English拼写Takumi。 algorithm/technique用来做这个的是什么?
浏览 3
提问于2012-07-05
得票数 3
回答已采纳
1
回答
R
-计算列表的成对正交相似度
、
我需要计算给定
语料库
中
单词
之间的拼写相似度(edit/Levenshtein距离)。
R
包vwr似乎能够计算出:其中
在
两
个
单词
列表的匹配
单词
之间成对地计算Levenshtein距离。我想知道是否有一种方法可以计算给定
单词
列表中所有可能的
单词
组合之间的Levenshtein距离。有人能给我
个
提示吗?
浏览 1
提问于2017-12-07
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
NLP中关键字提取方法总结和概述
Python之LDA主题模型算法应用
这里有一个提速100倍的方案
这里有一个提速100倍的方案
Word2Vec——深度学习的一小步,自然语言处理的一大步
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券