在countvectorizer()中找不到get_feature_names

文章/答案/技术大牛

发布

1回答

Python ()：为什么我们必须将CountVectorizer()赋值给一个变量以使其工作？

、、、、

以下是初始代码：corpus = ['This is the first document# WORKING: assigning a variable "vectorizer" for CountVectorizer()X =>>> ['and', 'document'

浏览 5提问于2022-04-27得票数 1

1回答

get_feature_names()不适用于使用sikit learn的CountVectorizer()生成的稀疏矩阵

、、、

我正在处理亚马逊精品食品评论数据集，在所有预处理之后，我尝试对我的数据(在熊猫数据框中)使用CountVectorizer()函数，我想知道稀疏矩阵的列的名称，但当我使用get_feature_names()函数时，它给出一个错误消息："AttributeError: get_feature_names not found“。下面是代码 from sklearn.feature_extraction.text import CountVectorizer count_vec =

浏览 246提问于2021-09-06得票数 0

1回答

、、、

我想在我的语料库中识别停用的单词(比如“python”)。我想要获得我的特征名称，这样我就可以识别出词频最高的单词。pytorch_doc += row[3] + ' ' vectorizer = CountVectorizersparse/base.py", line 686, in __getattr__ raise AttributeError(attr + " not found")

浏览 1027提问于2019-04-05得票数 1

回答已采纳

3回答

从sklearn特征联合中获取特征

、

我认为我需要在自定义transformer - 中定义一个'get_feature_names‘函数。('pipeline_1', Pipeline([ ('vectorise', CountVectorizer('pipeline_2', Pipeline([ ('selector

浏览 13提问于2017-12-28得票数 1

回答已采纳

1回答

为什么文本的特征提取不返回所有可能的特征名？

、、、、

以下是书中的代码片段from sklearn.feature_extraction.text import CountVectorizerone_hot_vectorizer = CountVectorizer()vocab的值： vocab = ['an', 'arro

浏览 0提问于2019-03-04得票数 2

回答已采纳

3回答

AttributeError: getfeature_names未找到；使用scikit-学习

、、

from sklearn.feature_extraction.text import CountVectorizer vectorizerThe num of words = ",len(voc_words)getattr<e

浏览 5提问于2015-07-26得票数 4

1回答

如何使用python的sklearn在文本文件中查找关键字

、、、、

为了做到这一点，我正在努力寻找工作列表中使用的关键字，我可以将这些关键字添加到我的简历中，使其在通过ATS运行时脱颖而出。目前，我正在使用以下代码来查找与我的简历匹配的百分比是多少。我如何使用这种比较，并找到如何通过职位列表中的特定关键字来改进我的简历？from sklearn.feature_extraction.text import CountVectorizer from sklearn.metrics.pairwise import cosine_similarityreference = open("

浏览 0提问于2020-10-14得票数 0

1回答

在创建CountVectorizer对象的上下文中，对象是什么意思？

、、

示例:创建CountVectorizer对象意味着什么？第三行做什么，最后在第四行，为什么我不能使用print((X.get_feature_names()))来查看特性名称？from sklearn.feature_extraction.text import CountVectorizercv = CountVectorizer(stop_words=my_list) #create a countvectorizer object

浏览 18提问于2020-04-02得票数 0

回答已采纳

1回答

统计文档中的ngram频率

、、、、

我想数一数我的语料库中每一份文件的数量，以便删除那些在所有文件中最常见的文件(例如，出现在10多个不同文件中的文件)。

浏览 3提问于2021-04-19得票数 0

回答已采纳

1回答

Sklearn学习如何从每个主题获取10个单词

、、

我想从每个主题中获得前10个单词的频率，在我使用TfidfTransformer之后，我得到:并且类型是scipy.sparse.csr.csr_matrix 但我不知道如何从每个列表中获得前十个，在数据中

浏览 1提问于2018-11-08得票数 0

1回答

scikit -learn管道的特性重要性

、、

Book_contents= Pipeline([('selector', ItemSelector(key='Book')), ('tfidf',

浏览 0提问于2018-09-10得票数 2

2回答

如何在python中使用HashingVectorizer获取特性名称？

、

使用CountVectorizer后，我会收到内存错误。那么，还有其他方法(比如迷你批次)来做这件事吗？如果我使用HashingVectorizer，那么如何获得feature_names？，因为get_feature_names()方法在HashingVectorizer中不可用。

浏览 1提问于2014-04-04得票数 5

1回答

使用countVectorizer计算我自己在python中的词汇量

、

我尝试使用countVectorizer，如下所示：doc_set = [Doc15619) 1(0, 5012) 1(0, 996) 1其中，第一列是文档ID，第二列是词汇表中的单词ID，第三列是该单词在该文档中的出现次数。我知道在一天结束的时候，我可以写一段代码

浏览 51提问于2018-04-03得票数 4

回答已采纳

2回答

为什么这个CountVectorizer输出与我的字数不同？

、、、

我尝试使用以下代码这样做：vectorizer.fit(film['Phrase']) print(vectorizer.vocabulary我是否误解了CountVectorizer对象在做什么？

浏览 1提问于2019-03-27得票数 0

回答已采纳

2回答

从Scikit中的管道中检索中间特性(Python)

、、

我使用的管道非常类似于给定的：...但是，我希望使用get_feature_names()方法从CountVectorizer()获得培训集的列名。如果不在管道之外实现CountVectorizer()，这是可能的吗？

浏览 1提问于2015-10-12得票数 7

回答已采纳

1回答

Sklearn TFIDF向量器线程安全吗？

、、

tfidf = TfidfVectorizer(tokenizer=ner_tokenizer, stop_words='english')我现在想在多线程中执行

浏览 9提问于2018-01-24得票数 0

回答已采纳

2回答

如何从Sklearn管道中提取特征重要性

、、、、

我已经在Scikit-Learn中构建了一个管道，包括两个步骤:一个是构建功能，第二个是RandomForestClassifier。虽然我可以保存该管道，但可以查看各个步骤和步骤中设置的各种参数，我希望能够检查结果模型中的特征重要性。这有可能吗？

浏览 0提问于2016-08-05得票数 17

3回答

用特征名可视化决策树

、

我的问题是:我想在输出中获得特征名，而不是X2599、X4等索引。我知道可以通过vect.get_feature_names()作为export_graphviz的输入，vect是CountVectorizer()的对象，因为我已经使用h堆栈合并了这个矢量化数据。现在如何在这个决策树中获得特征名？

浏览 0提问于2019-03-23得票数 1

1回答