腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
从
R
中
的
数字
和
停
用词
中
过滤
文本
(
不适
用于
tdm
)
、
、
我有
文本
语料库。mytextdata = read.csv(path to texts.csv)如何
过滤
此
文本
?我必须删除:我不会与dtm一起工作,我只需要从
数字
和
停
用词
中
清理
文本
数据示例数据: 112773-Tabl
浏览 3
提问于2017-12-01
得票数 3
1
回答
在facet搜索结果
中
显示Solr停
用词
、
、
、
我目前正在对我
的
Solr模式
中
的
一个
文本
字段测试facet搜索,并注意到在我
的
stopwords.txt文件
中
得到了大量
的
结果。我
的
模式当前使用
文本
数据类型
的
默认配置,并且我
的
印象是,如果使用了"solr.StopFilterFactory“
过滤
器,则不会对停
用词
进行索引。我希望有人能对此有所了解,或者a)帮助我理解为什么停
用词
浏览 4
提问于2011-05-23
得票数 2
2
回答
Yahoo Pipes:根据
文本
文件
中
的
单词
过滤
提要
中
的
项目
、
、
、
、
我有一个管道,可以
过滤
RSS提要,并删除任何包含我选择
的
“停
用词
”
的
条目。目前,我已经在管道编辑器
中
为每个停
用词
手动创建了一个
过滤
器,但更符合逻辑
的
方法是
从
文件
中
读取这些
过滤
器。我已经知道了如何
从
文本
文件
中
读取停
用词
,但是如何将
过滤
器操作符应
用于
提要,每个停
用词
一次? 文档指
浏览 3
提问于2010-04-23
得票数 2
1
回答
Bigram包含weka
中
的
Stopword?
、
我正在处理weka
中
的
一个分类问题,并使用smart 524停
用词
列表。我在weka中使用NGram标记器。它正确地
从
unigram
中
过滤
停
用词
,但二元语法
中
包含停
用词
,例如"the east","the window“。我之前假设weka可能会首先
过滤
文本
文档
中
的
所有停
用词
,然后将它们转换为单字
和
浏览 0
提问于2014-01-25
得票数 2
2
回答
NLP & ML短语提取
、
、
、
、
我可以使用什么ML算法来训练给定句子
中
的
动作短语。play cricket Label2: wash clothes 我有一个大约2k个句子
和
相应
的
动作短语(标签)
的
数据,需要根据它们预测另一组句子。使用哪个Algo来做同样
的
事情?(最好是python)
浏览 0
提问于2017-02-04
得票数 0
1
回答
从
大型语料库创建DTM
、
、
、
我有一组包含在列表
中
的
文本
,这些
文本
是
从
csv文件中加载
的
。对于没有词干
的
文本
,我可以通过使用fn_
tdm
_df reported 函数为短
文本
制作DTM。不过,对我来说,更实用
的
是
用词
干词做一个DTM。更清楚
的
是,我在应用“fn_
tdm
_df”时
的
输出: be have here is text1 text
浏览 4
提问于2016-10-08
得票数 2
2
回答
基于
TDM
/DTM
的
情感分析
、
、
、
、
我正在尝试在我
的
DTM (文档术语矩阵)或
TDM
(术语文档矩阵)
的
帮助下在
R
中
应用情感分析。我在论坛
和
谷歌上找不到任何类似的话题。因此,我创建了一个语料库,并从该语料库中生成了
R
中
的
dtm/
tdm
。我
的
下一步是应用情感分析,稍后通过SVM进行股票预测所需
的
情感分析。(as.matrix(dtm))
tdm
<- TermDocument
浏览 43
提问于2019-06-10
得票数 0
回答已采纳
1
回答
excel VBA
中
的
停
用词
、
我正在处理excel
中
的
一个项目,我正在获取一个
文本
文件,读取该
文本
文件,并尝试
从
该
文本
文件
中
删除停
用词
。但是我在删除excel VBA
中
的
停
用词
时遇到了麻烦。
从
研究
中
,我发现这在Java
和
PHP
中
是可能
的
,但我还没有找到专门
用于
excel VBA
的
。excel VBA中有没
浏览 3
提问于2013-02-27
得票数 1
1
回答
如何将潜在语义分析
的
特征作为自变量合并到预测模型
中
、
、
、
我正在尝试使用
R
中
的
文本
数据运行逻辑回归。我已经构建了一个术语文档矩阵
和
相应
的
潜在语义空间。在我
的
理解
中
,LSA被用来
从
“术语”
中
推导出“概念”,这可能有助于降维。下面是我
的
代码:
tdm</e
浏览 15
提问于2017-07-05
得票数 0
1
回答
在
R
中使用LSA
的
文档相似度
、
我正在使用LSA (使用
R
)进行文档相似性分析。这是我
的
脚步声
tdm
<- TermDocumentMatrix(chat_corpus)
tdm
_matrix <- as.matrix(
tdm
)
tdm
.lsa <- lw_bintf(
tdm
_matrix)*gw_idf(
tdm
_matrix) lsaSpace <
浏览 5
提问于2016-10-14
得票数 1
1
回答
是否有更有效
的
方法将大文件
中
的
行附加到numpy数组?- MemoryError
、
、
、
、
我试图使用这个包来处理一个包含39568行
和
27519列
的
术语文档矩阵csv文件,其中只包含计数/自然数。问题:我正在用我
的
方法获得一个MemoryError,
用于
读取文件并将其存储到一个numpy数组
中
。目标:
从
TDM
文件
中
获取
数字
,并将其转换为numpy数组,这样我就可以使用numpy数组作为lda
的
输入。: OverflowError:不能将“长”放入索引大小
的
整数
中</e
浏览 5
提问于2016-01-03
得票数 3
回答已采纳
2
回答
R
中
的
词频散点图(单词作为标签)
、
、
、
、
我收集了twitter
的
数据(最重要
的
是,原始
文本
)
和
一位议员在议会中
的
演讲,并希望做一个散点图,显示哪些单词在twitter和议会中都很常见(右上角),哪些不常见(左下角)。所以,x轴是议会中
的
词频,y轴是twitter上
的
词频。我试着改编这段代码(),但就是做不出来。主要问题是,编写此代码的人使用一个
文本
浏览 0
提问于2014-01-05
得票数 1
1
回答
获取ngram频率时,Lucene输出
中
带有停止词
的
下划线
、
我目前为用户提供了一个选项,在
过滤
ngram频率
的
文本
正文时,是否包含停
用词
。shingleAnalyzer = new ShingleAnalyzerWrapper(snowballAnalyzer, this.getnGramLength()); stopWords被设置为包含在ngram
中
的
单词
的
完整列表,或者
从
它们
中
删除。如果我在
过滤
文本
时使用停
用词
来
过滤
浏览 4
提问于2012-09-19
得票数 4
回答已采纳
1
回答
COUNTIF在google工作表
中
带有偏移量
的
文本
查询
、
、
、
我有3张不同
的
文件。第一个包含原始数据,第二个(统计)是分析
的
第一步,最后(每周)显示我
的
最终推断。=COUNTIF(offset(data!$
R
$3,COUNT(data!$
R
$3:$
R
)-B2,0,B2,1),"<=
浏览 2
提问于2020-01-26
得票数 0
回答已采纳
1
回答
R
+ tfidf与逆文档频率
、
我希望有人能解释一篇学术论文
的
具体部分,并协助为该部分编写
R
代码: “...build是一个TF本文所说
的
“全球逆文档频率”是什么意思?我如何用不同
的
子集(例如,积极
和
消极
的
顾问)在
R
中
编码这一点?t(col_sums(
tdm
_pos_1^2)))) 在代码
中</em
浏览 4
提问于2020-05-19
得票数 0
1
回答
Solr多语言搜索
、
、
下面是我
的
架构..true" stored="true" required="false" multiValued="false"></field>当我看到日志文件Solr正在索引不同语言
的
URL我
的
网站正在使用.net技术
浏览 0
提问于2011-05-27
得票数 1
1
回答
用不同
的
名称通过for循环存储多个语料库
、
、
、
、
我有多个
文本
文件,每个滴答,我想存储作为一个单独
的
语料库。我读过关于创建“列表
中
的
列表”
的
文章,但这并
不适
用于
我。例如,“‘
文本
挖掘
和
术语文档矩阵’”给出了以下错误:没有将“TermDocumentMatrix”应
用于
类“列表”对象
的
适用方法。我可能会把所有东西都放在for循环中,但这不是我想要
的
,因为我想要一些灵活性来处理这个语料库。 有人能帮我解决这个问题吗?我
的</e
浏览 1
提问于2020-05-29
得票数 1
回答已采纳
1
回答
在nunjucks + eleventy中使用变量
和
标记内
的
筛选器
、
我是个修女{% set myVar ={ title而下} %}更长版本/我
的
特定用例: 我正在尝试创建一个名为section.njk
的
布局文件,并将其
用于
几个页面(基本上是我站点每个部分
的
首页--类似于Hugo
中
的
section.html布局文件)--我为每个部分都提供了一个数据文件,其中包
浏览 1
提问于2019-09-21
得票数 3
1
回答
如何使用QUANTEDA,
R
获取
从
数据集中删除
的
停
用词
类型列表
、
我正在使用
R
中
的
quanteda处理一个
文本
数据集。我已经
从
该数据集创建了一个语料库,然后我使用以下内容创建了一个删除了英语中所有标点符号
和
停
用词
的
dfm: dfm_nostp <- dfm(data, remove_punct = TRUE, remove=c(stopwords("english"))) 有没有一种方法可以检查我
从
quanteda
中
的
数据集中删除了多少类
浏览 17
提问于2020-01-30
得票数 1
回答已采纳
3
回答
过滤
文本
文件
中
的
外来停
用词
、
我有一个英文
和
几种外语
的
电影名称列表,编译成一个
文本
文件,每个名称打印在一个新
的
行
中
:Kein Platz f¸
r
GeroldLa PrimerizaLa PuppeLa PÈrgola de las Flores 我已经编辑了一个简短
的
非英语停
用词
列表,我想从
文本
文
浏览 0
提问于2014-08-27
得票数 0
点击加载更多
相关
资讯
一个基于Unicode的文本数字水印工具,用于在文本内容中嵌入不可见的版权标识和元数据信息。
NLP文本聚类分析R实现,以及几个简单实用的小工具
复旦中文文本分类过程附语料库
Beyond Skip Connections Top-Down Modulation for Object Detection
自然语言处理简明教程
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券