从R中的数字和停用词中过滤文本(不适用于tdm)

文章/答案/技术大牛

发布

0回答

、、

我有文本语料库。mytextdata = read.csv(path to texts.csv)如何过滤此文本？我必须删除：我不会与dtm一起工作，我只需要从数字和停用词中清理文本数据示例数据： 112773-Tabl

浏览 3提问于2017-12-01得票数 3

1回答

在facet搜索结果中显示Solr停用词

、、、

我目前正在对我的Solr模式中的一个文本字段测试facet搜索，并注意到在我的stopwords.txt文件中得到了大量的结果。我的模式当前使用文本数据类型的默认配置，并且我的印象是，如果使用了"solr.StopFilterFactory“过滤器，则不会对停用词进行索引。我希望有人能对此有所了解，或者a)帮助我理解为什么停用词

浏览 4提问于2011-05-23得票数 2

2回答

Yahoo Pipes:根据文本文件中的单词过滤提要中的项目

、、、、

我有一个管道，可以过滤RSS提要，并删除任何包含我选择的“停用词”的条目。目前，我已经在管道编辑器中为每个停用词手动创建了一个过滤器，但更符合逻辑的方法是从文件中读取这些过滤器。我已经知道了如何从文本文件中读取停用词，但是如何将过滤器操作符应用于提要，每个停用词一次？文档指

浏览 3提问于2010-04-23得票数 2

1回答

Bigram包含weka中的Stopword？

、

我正在处理weka中的一个分类问题，并使用smart 524停用词列表。我在weka中使用NGram标记器。它正确地从unigram中过滤停用词，但二元语法中包含停用词，例如"the east"，"the window“。我之前假设weka可能会首先过滤文本文档中的所有停用词，然后将它们转换为单字和

浏览 0提问于2014-01-25得票数 2

2回答

NLP & ML短语提取

、、、、

我可以使用什么ML算法来训练给定句子中的动作短语。play cricket Label2: wash clothes 我有一个大约2k个句子和相应的动作短语(标签)的数据，需要根据它们预测另一组句子。使用哪个Algo来做同样的事情？(最好是python)

浏览 0提问于2017-02-04得票数 0

1回答

从大型语料库创建DTM

、、、

我有一组包含在列表中的文本，这些文本是从csv文件中加载的。对于没有词干的文本，我可以通过使用fn_tdm_df reported 函数为短文本制作DTM。不过，对我来说，更实用的是用词干词做一个DTM。更清楚的是，我在应用“fn_tdm_df”时的输出： be have here is text1 text

浏览 4提问于2016-10-08得票数 2

2回答

基于TDM/DTM的情感分析

、、、、

我正在尝试在我的DTM (文档术语矩阵)或TDM (术语文档矩阵)的帮助下在R中应用情感分析。我在论坛和谷歌上找不到任何类似的话题。因此，我创建了一个语料库，并从该语料库中生成了R中的dtm/tdm。我的下一步是应用情感分析，稍后通过SVM进行股票预测所需的情感分析。(as.matrix(dtm)) tdm <- TermDocument

浏览 43提问于2019-06-10得票数 0

回答已采纳

1回答

excel VBA中的停用词

、

我正在处理excel中的一个项目，我正在获取一个文本文件，读取该文本文件，并尝试从该文本文件中删除停用词。但是我在删除excel VBA中的停用词时遇到了麻烦。从研究中，我发现这在Java和PHP中是可能的，但我还没有找到专门用于excel VBA的。excel VBA中有没

浏览 3提问于2013-02-27得票数 1

1回答

如何将潜在语义分析的特征作为自变量合并到预测模型中

、、、

我正在尝试使用R中的文本数据运行逻辑回归。我已经构建了一个术语文档矩阵和相应的潜在语义空间。在我的理解中，LSA被用来从“术语”中推导出“概念”，这可能有助于降维。下面是我的代码：tdm</e

浏览 15提问于2017-07-05得票数 0

1回答

在R中使用LSA的文档相似度

、

我正在使用LSA (使用R)进行文档相似性分析。这是我的脚步声 tdm <- TermDocumentMatrix(chat_corpus) tdm_matrix <- as.matrix(tdm) tdm.lsa <- lw_bintf(tdm_matrix)*gw_idf(tdm_matrix) lsaSpace <

浏览 5提问于2016-10-14得票数 1

1回答

是否有更有效的方法将大文件中的行附加到numpy数组？- MemoryError

、、、、

我试图使用这个包来处理一个包含39568行和27519列的术语文档矩阵csv文件，其中只包含计数/自然数。问题:我正在用我的方法获得一个MemoryError，用于读取文件并将其存储到一个numpy数组中。目标:从TDM文件中获取数字，并将其转换为numpy数组，这样我就可以使用numpy数组作为lda的输入。： OverflowError:不能将“长”放入索引大小的整数中</e

浏览 5提问于2016-01-03得票数 3

回答已采纳

2回答

R中的词频散点图(单词作为标签)

、、、、

我收集了twitter的数据(最重要的是，原始文本)和一位议员在议会中的演讲，并希望做一个散点图，显示哪些单词在twitter和议会中都很常见(右上角)，哪些不常见(左下角)。所以，x轴是议会中的词频，y轴是twitter上的词频。我试着改编这段代码()，但就是做不出来。主要问题是，编写此代码的人使用一个文本

浏览 0提问于2014-01-05得票数 1

1回答

获取ngram频率时，Lucene输出中带有停止词的下划线

、

我目前为用户提供了一个选项，在过滤ngram频率的文本正文时，是否包含停用词。shingleAnalyzer = new ShingleAnalyzerWrapper(snowballAnalyzer, this.getnGramLength()); stopWords被设置为包含在ngram中的单词的完整列表，或者从它们中删除。如果我在过滤文本时使用停用词来过滤

浏览 4提问于2012-09-19得票数 4

回答已采纳

1回答

COUNTIF在google工作表中带有偏移量的文本查询

、、、

我有3张不同的文件。第一个包含原始数据，第二个(统计)是分析的第一步，最后(每周)显示我的最终推断。=COUNTIF(offset(data!$R$3,COUNT(data!$R$3:$R)-B2,0,B2,1),"<=

浏览 2提问于2020-01-26得票数 0

回答已采纳

1回答

R+ tfidf与逆文档频率

、

我希望有人能解释一篇学术论文的具体部分，并协助为该部分编写R代码： “...build是一个TF本文所说的“全球逆文档频率”是什么意思？我如何用不同的子集(例如，积极和消极的顾问)在R中编码这一点？t(col_sums(tdm_pos_1^2)))) 在代码中</em

浏览 4提问于2020-05-19得票数 0

1回答

Solr多语言搜索

、、

下面是我的架构..true" stored="true" required="false" multiValued="false"></field>当我看到日志文件Solr正在索引不同语言的URL我的网站正在使用.net技术

浏览 0提问于2011-05-27得票数 1

1回答

用不同的名称通过for循环存储多个语料库

、、、、

我有多个文本文件，每个滴答，我想存储作为一个单独的语料库。我读过关于创建“列表中的列表”的文章，但这并不适用于我。例如，“‘文本挖掘和术语文档矩阵’”给出了以下错误:没有将“TermDocumentMatrix”应用于类“列表”对象的适用方法。我可能会把所有东西都放在for循环中，但这不是我想要的，因为我想要一些灵活性来处理这个语料库。有人能帮我解决这个问题吗？我的</e

浏览 1提问于2020-05-29得票数 1

回答已采纳

1回答

在nunjucks + eleventy中使用变量和标记内的筛选器

、

我是个修女{% set myVar ={ title而下} %}更长版本/我的特定用例：我正在尝试创建一个名为section.njk的布局文件，并将其用于几个页面(基本上是我站点每个部分的首页--类似于Hugo中的section.html布局文件)--我为每个部分都提供了一个数据文件，其中包

浏览 1提问于2019-09-21得票数 3

1回答

如何使用QUANTEDA，R获取从数据集中删除的停用词类型列表

、

我正在使用R中的quanteda处理一个文本数据集。我已经从该数据集创建了一个语料库，然后我使用以下内容创建了一个删除了英语中所有标点符号和停用词的dfm： dfm_nostp <- dfm(data, remove_punct = TRUE, remove=c(stopwords("english"))) 有没有一种方法可以检查我从quanteda中的数据集中删除了多少类

浏览 17提问于2020-01-30得票数 1

回答已采纳

3回答

过滤文本文件中的外来停用词

、

我有一个英文和几种外语的电影名称列表，编译成一个文本文件，每个名称打印在一个新的行中：Kein Platz f¸r GeroldLa PrimerizaLa PuppeLa PÈrgola de las Flores 我已经编辑了一个简短的非英语停用词列表，我想从文本文

浏览 0提问于2014-08-27得票数 0

点击加载更多