词袋中使用的词以及keras标记器中的频率_VADER NLTK中的词袋_在Keras中使用的训练词嵌入(Gensim)中的未知词 - 腾讯云开发者社区

、、

我只想知道，如何识别或获取keras标记器为词袋考虑的单词列表以及它们的频率。一个将用于填充，另一个将由my_list中使用频率最高的单词使用。m_tokenizer = text.Tokenizer(num_words=2)使用标记器<em

浏览 25提问于2020-05-26得票数 1

回答已采纳

3回答

在NLTK中实现词袋朴素贝叶斯分类器

、、、、

我基本上有了..朴素贝叶斯分类器的只考虑单词是否作为特征出现在文档中。它不考虑单词的频率作为要查看的特征(“词袋”)。似乎认为，使用内置的NLTK分类器无法做到这一点。真的是这样吗？如何使用NLTK进行频率/词袋NB分类？

浏览 0提问于2012-04-11得票数 24

回答已采纳

1回答

使用Keras进行文本分类

、、、

我正在努力接近词袋/词汇表方法，将我的输入数据表示为keras中神经网络模型的一个热点向量。我想建立一个简单的3层网络，但我需要帮助理解和开发一种方法来转换我的标签数据在文本的形式，句子，这是有7个标签，在0-1在0.2步的范围内。我试过使用scikit的向量器，但它们太死板了，即它们要么标记单词，要么标记字符，而我需要一个句子来与包括

浏览 9提问于2016-08-21得票数 4

1回答

Keras的词袋嵌入层？

、、、、

我有一个非常简单的Keras模型，如下所示：model.add(Dense(hidden_size, input_dim=n_inputs, activation='relu'))我使用的嵌入是词袋。我希望将嵌入步骤作为模型的一部分。我想把它当做一个嵌入层...但我不知道是否有可能实现一

浏览 1提问于2021-02-08得票数 0

2回答

php中的词袋算法

、、

我正在做我的期末学习项目。我用的是贝叶斯算法和词袋。我什么也找不到，可能是正面和负面的单词列表或者别的什么

浏览 1提问于2012-01-28得票数 0

回答已采纳

1回答

用作TfidfTransformer输入的CountVectorizer输出与TfidfTransformer()

、、、、

最近，我开始阅读更多关于NLP和以下Python教程的内容，以便了解更多关于这个主题的知识。在学习其中一个教程时，我观察到他们使用每个tweet中的稀疏字数矩阵(使用CountVectorizer创建)作为TfidfTransformer的输入，后者处理数据并将其提供给分类器进行训练和预测。CountVectorizer()), ('clf&

浏览 14提问于2019-02-19得票数 2

回答已采纳

1回答

如何使用LDA或任何主题建模算法获取文档的意图

、、、

我需要基于文档的意图对一组文档进行聚类，我计划使用LDA(潜在Dirichlet分配-主题建模)。我一直在尝试LDA算法进行主题建模，能够获得主题列表，但不确定我是否可以将主题视为意图本身。期望一种根据文档的意图对文档组进行聚类的方法。

浏览 0提问于2019-08-20得票数 0

3回答

Python -从标记列表到词袋

、、、、

我正在为计算词袋而挣扎。我有一个带有文本列的pandas dataframe，我正确地对其进行了标记化、删除停用词和词干。最后，对于每个文档，我都有一个字符串列表。我的最终目标是为本专栏计算词袋，我已经看到scikit-learn有一个函数可以做到这一点，但它适用于字符串，而不是字符串列表。我正在用NLTK自己做预处理，并希望保持这种方式…["hello

浏览 0提问于2018-01-27得票数 3

3回答

如何分析文本片段中的正向或负向单词？

我正在寻找某种类型的模块(最好是python)，它允许我为该模块提供一个大约200个字符的字符串。然后，该模块应返回该字符串有多少个正单词或负单词。(例如，爱，喜欢，享受vs.恨，讨厌，坏) 我真的很想避免在自然语言处理中重新发明轮子，所以如果你们知道什么可以让我做我上面描述的事情，如果你们可以分享的话，这将是一个巨大的节省时间的方法。谢谢你的帮助！

浏览 1提问于2011-01-13得票数 1

回答已采纳

1回答

打开pandas专栏中的词袋(python)

、

在pandas中，我试图从col2中出现的单词中展开一袋单词。我的主要目标是找到每个不同类别中所有独特的单词及其频率。如果一个词在一个类别中出现两次，将计入1(例如"msk“和"people")。workspace , ltd ] Services [happy , people , party , new ] 我的<

浏览 61提问于2018-07-18得票数 1

1回答

我在上关注“英语维基百科”的基因教程doc_lda = lda[doc_bow] LDA是否只需要词袋向量？

浏览 89提问于2017-06-27得票数 10

回答已采纳

1回答

在斯坦福分类器中处理sysnonyms

、

在斯坦福分类器中，是否可以将同义词或其他特定的两个或更多个单词视为词袋模型中的单个特征？例如:我想要并且可以被认为是一个单一的特性。

浏览 1提问于2014-09-15得票数 0

2回答

未登录词和已知词的词性

、、

未登录词词性标注与已知词词性标注有何不同。有没有什么工具可以预测单词的词性标注..

浏览 4提问于2013-05-20得票数 0

2回答

词袋(BOW) vs N-gram (sklearn CountVectorizer) -文本文档分类

、、、、

据我所知，在词袋方法中，特征是一组单词及其在文档中的出现频率。另一方面，N-gram，例如unigram，做了完全相同的事情，但它没有考虑一个单词的出现频率。我想使用sklearn和CountVectorizer来实现BOW和n-gram方法。对于BOW，我的代码如下所示：是否应该将&#x

浏览 0提问于2018-08-01得票数 5

2回答

词嵌入和词向量化的确切区别是什么？

、、、、

我试图找出词嵌入和词向量化之间的确切区别。然而，似乎有些文章交替使用这些词。但我认为一定有不同之处。在矢量化中，我偶然发现了这些矢量器：而且，当我试图理解嵌入这个词的时候。我找到了这些工具。单词袋，Word2Vec 请你简要地总结一下词嵌入和词向量化的区别和算法。非常感谢。

浏览 0提问于2022-03-13得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云