科学工具包-学习: TfidfVectorizer的麻烦

、、

我正在尝试使用TFIDF从文本文章的标题中获取特征。我正在做以下工作：corpus_title = result_df['_title'].tolist() tfidf_transformer_title = TfidfVectorizer(min_df = 1, ngram_range = (1,1), use_idf = True我检查了文档，看起来TfidfVectorizer

浏览 5提问于2017-07-07得票数 0

1回答

科学学习- TfidfVectorizer -如何使用自定义分析器，并仍然使用token_pattern

下面是我想要的管道：stemmer = SnowballStemmer('english') return (stemmer.stem(w) for w in analyzer(doc)) vec = TfidfVectorizer(analyzer=processed_wordsstop_words='english', token_patte

浏览 0提问于2018-03-22得票数 3

1回答

Python将多个单词视为单个

、

我写了一个脚本，在一组文件中找到TF-下手的价值。问题是，它给了Tf-国防军的个别词。但是，在有些情况下，我必须把多个单词作为一个整体来处理，比如大数据，机器学习应该被当作一个单词来处理，而Tf-国防军的分数应该被计算出来。任何帮助都是非常有用的。

浏览 4提问于2014-05-08得票数 0

1回答

将sklearn.neural_network版本0.18.dev0与scikit同时使用-学习0.17

、

我正在使用两个版本的科学工具包-学习，用于不同的目的：在0.18变得稳定之前，我想在生产中使用0.18

浏览 6提问于2016-06-27得票数 1

回答已采纳

1回答

以前预处理过的数据

、、

对于每一个文本，我都希望以完全相同的方式对文本进行预处理。我的预处理文本是作为一个列表的文字。不幸的是，scikit-学TfidfVectorizer似乎只接受字符串列表。目前，我是这样做的(当然这是非常低效的)： train_data = [["themap(lambda i:",".join(i),

浏览 4提问于2015-07-10得票数 1

回答已采纳

1回答

学习average_precision_score()与precision_recall_curve()的auc评分

、、

我一直在寻找对此的解释，但还没有找到一个--在科学工具包中--学习，当我计算auc() of precision_recall_curve()时，我得到了一个与使用内置average_precision_score()函数不同的宏观度量。根据文档，这是合理的，因为auc()使用梯形近似，因此平均精度更精确。然而，当我计算微观度量时，数值是相同的。我在试着理解这一点。我认为这是有意义的，考虑到在更大的范围内(例如，沿着数千个数据点<em

浏览 0提问于2018-08-19得票数 4

1回答

没有输出的idf_在科学工具包-学习

、

我正在使用TfidfVectorizor函数中的科学工具包-学习。我试图包括使用"use_idf=True“的tf-国防军元素。在文档中，它说在这之后，result.idf_应该返回我的I权重的数组和形状，但是我得到的是“无”。下面是我的输入和输出。(我最终试图判断min_df和max_df如何影响我的结果，因此它们现在只是随机值)。tester =TfidfVectorizer(docs

浏览 1提问于2014-10-19得票数 0

回答已采纳

1回答

ImportError:无法导入名称Bunch学习0.19

、、

import SelectFromModelfrom pprint import pprintImportError:无法导入名称束：而且，当我评论这句话在下一行中，我再次得到与utils目录相关的错误：有人能给我指明正确的方向吗？

浏览 1提问于2017-08-19得票数 4

1回答

TypeError: check_is_fitted()缺少一个必需的位置参数：“属性”

、

我正在尝试运行官方教程给出的代码。但是，我错了 from sklearn.utils.estimator_checks import check_estimator

浏览 1提问于2020-02-27得票数 1

1回答

sklearn:文本分类交叉验证中的矢量化

我有一个问题，使用交叉验证的文本分类在雪橇。在交叉验证之前向量化所有数据是有问题的，因为分类器会“看到”测试数据中出现的词汇表。为了解决这个问题，Weka对分类器进行了过滤。对于这个函数，什么是sklearn等效的？我的意思是，对于每一个折叠，特征集将是不同的，因为训练数据是不同的。

浏览 3提问于2014-03-26得票数 8

回答已采纳

2回答

调用Numpy和scikit-向C#学习

、、

我正在构建一个分类器，希望将其作为c# win服务宿主，并公开一个我可以使用我希望分类的文本远程调用的端点。目前，我有一个使用ironpython和自然语言工具包的工作，使用c#4.0 dynamics。我的问题是，我想使用分类器和矢量在科学知识-学习。有人能提出最好的方法吗？尽管当我尝试运行这个程序时，我遇到了NumpyDotNet.dll找不到的问

浏览 5提问于2014-06-09得票数 5

回答已采纳

2回答

无法从“haversine_distances”导入名称“sklearn.metrics.pairwise”

、

导入名称“sklearn.metrics.pairwise”我也收到了同样的信息

浏览 2提问于2019-10-04得票数 3

回答已采纳

1回答

如何选择和使用不同数据类型的特性？

、

我是一个机器学习的新手，虽然我有一些sci分类器在我的数据集中“工作”，但我不确定我是否正确地使用了它们。我在用一种手标记的训练装置进行监督学习。问题是:我的数据集中的每一项都是一本大约是字典。我目前甚至不打算尝试分析文本，所以它可能是值得的，甚至不给予分类器这些特性。仅仅尝试相同类型的特性(ints)的各种排列/组合会不会是愚蠢的？也可能是我把数据集看错了.它的形状如

浏览 1提问于2015-04-06得票数 1

回答已采纳

1回答

scikit-learn.org中的示例代码出现错误。

、、

当我尝试从sklearn库中学习一个HotEncoder时，我尝试了scikit-learn.org提供的。但是这段代码给了我错误，我无法调试它。order, copy=copy)我假设如果这段代码是在scikit-learn.org上编写的，那么问题肯定是在我的环境中，还是我在这里做错了什么。

浏览 1提问于2019-02-13得票数 0

回答已采纳

2回答

在搜索引擎中使用ScikitLearn TfidfVectorizer

、、、、

我正在考虑创建一个搜索引擎，因为我可以使用关键字从预处理的pdf文件中获取句子(表示文档)。我想知道在scikit中是否有一个内置的函数--学习以类似于一袋单词输出的方式显示数据，这意味着我将所有的单词作为列(在熊猫中)，所有的文档作为行，tf-idf值作为值。

浏览 3提问于2020-03-23得票数 0

回答已采纳

2回答

_check_build”的模块

_check_build”的模块 ImportError Traceback (most recent_check_build”的模块 setup.py _check_build.cp36-win

浏览 0提问于2019-04-13得票数 5

1回答

ImportError:无法导入名称“pairwise_distances_chunked”

、、、

从imblearn.over_sampling导入RandomOverSampler

浏览 0提问于2018-11-22得票数 2

回答已采纳

2回答

scikit学习cross_validation过配或不合适

我使用的是scikit--学习cross_validation()，例如0.82平均分数(R2_scorer)。我怎么知道我有过度拟合或不适合使用科学工具包学习功能？

浏览 5提问于2013-12-03得票数 2

回答已采纳

2回答

科学知识在我的GPU上运行吗？

、、、

这个问题与有关，但我不认为能给出相同的答案。我正在对Nvidia GPU执行scikit学习算法，没有错误，所以假设scikit运行在底层硬件上。由于scikit-learn不是针对GPU设计的，什么是进程，使算法能够运行？例如，我正在使用带有规范的Gigabyte Nvidia GTX 1060 WF2 3GB GDDR5 PCI-E运行执行scikit学习算法：1582MHzClock (OC Mode) or 1556MHz Base/177

浏览 19提问于2017-10-01得票数 0

回答已采纳

点击加载更多