用于scikit-learn向量化器的自定义标记器

文章/答案/技术大牛

发布

2回答

、

one`feature two`feature three','feature one'我想使用scikit中的两个向量器类CountVectorizer或TfidfVectorizer)，其中'feature one'、'feature two'、'feature three'和'feature four'应该是矩阵中表示的四个特性

浏览 0提问于2018-02-23得票数 2

回答已采纳

1回答

Tfidf矢量器

、、、

我从文本评论中获取了一个用于预测情绪的数据集，最初，我清理了数据(删除标点符号，删除停用词，标记化)。当我尝试将标记化的数据作为TFIDF向量器的输入时，我得到的是AttributeError：'list‘对象没有'lower’属性。请帮我改掉这个错误。

浏览 0提问于2020-01-21得票数 1

2回答

如何在scikit-learn中继承向量化器的子类而不重复构造函数中的所有参数

、、、、

我正在尝试通过将CountVectorizer子类化来创建自定义向量化器。向量器将在计算词频之前对句子中的所有单词进行词干处理。然后我在流水线中使用这个向量化器，当我执行pipeline.fit(X,y)时，它工作得很好。但是，当我尝试用pipeline.set_params(rf__verbose=1).fit(X,y)设置一个参数时，我得到了以下错误： RuntimeError: scikit-learn estimators下面是我的自定

浏览 11提问于2018-07-20得票数 3

1回答

在python中使用Scikit-learn* Pipeline vs list append*

、

我想使用自己的函数对文本数据进行预处理，然后应用countvectorizer。我可以为这两个作品使用管道吗？

浏览 12提问于2020-01-29得票数 1

回答已采纳

3回答

sklearn导入错误:无法导入名称tfidfvectorizer

、

--------------------------------------------------------------------------- /usr/lib/python2.7/dist-packages/IPython/utils/py3compat.pyc in execfile(fname, *where) 174 fi

浏览 9提问于2013-12-17得票数 1

回答已采纳

1回答

在训练过程中，Tensorflow量化感知训练是否会导致实际的加速？

、、、、

我们正在考虑将量化感知训练用于一个研究项目，以确定训练期间量化对收敛速度和运行时间的影响。尽管我们还不完全相信这是正确的工具。请您澄清以下几点: 1)如果一个层在量化感知训练期间被量化，这意味着输入和权重被量化，包括激活函数在内的所有操作都被量化，然后在返回之前，输出被反量化到与下一层兼容的精度。这种理解正确吗?3)原则上，量化感知训练是否会在您的</em

浏览 22提问于2020-06-19得票数 0

回答已采纳

1回答

在nltk中使用scikit-learn分类器，多类情况

、、

文本文档的分类是一个，但在NLTK中没有一个干净的支持，也有像这样困难的方法来做这件事的示例。在scikit-learn everything is OK：from sklearn.multiclassOneVsRestClassifier(MultinomialNB())print clf.classes_ 结果是['first' &#x

浏览 2提问于2012-11-23得票数 6

回答已采纳

1回答

使用C++20概念为自定义容器创建一个Iterator

、、

C++20引入了概念，这是对模板函数或类可以接受的类型施加约束的一种聪明方法。同样的情况也适用于所有迭代器属性。例如，前向迭

浏览 3提问于2022-05-27得票数 9

回答已采纳

2回答

如何通过scikit-learn中的SVM使用非整数字符串标签？Python

、、、、

Scikit-learn为机器学习提供了相当友好的python模块。我正在尝试训练一个用于自然语言处理(NLP)的SVM标记器，其中我的标签和输入数据是单词和注释。例如，词性标记，而不是使用双精度/整数数据作为输入元组[[1,2], [2,0]]，我的元组将看起来像这样的[['word','NOUN'], ['young', 'adje

浏览 0提问于2012-10-18得票数 6

回答已采纳

1回答

spacy的自定义规范化

、

我正在使用en_core_web_sm，我正在尝试使它适应我的语料库。我已经调整了令牌器，现在它会根据需要生成令牌。我看到有一个norm_exceptions.py文件，除了标准化的所有例外。但是，我不知道如何强制我

浏览 0提问于2018-09-06得票数 1

回答已采纳

1回答

如何对字符串数据使用RandomForestClassifier

、

在我的数据集中有一个字符串数据和一个文件夹数据。它会显示出来的在我跑完之后clf.fit(x1, y1) 如何构建具有混合数据的RandomForest模型？

浏览 0提问于2016-12-01得票数 1

2回答

当使用SPF包括时，应用哪种SPF量化器？

、、、

SPF记录具有多个标记，其中一个可以是include标记，SPF记录以像+、?、~或-这样的量词结束。这个“子量词”是否只适用于它定义的主机，而“父量词”适用于除子定义主机之外的所有东西？还是父量词总是否决所有包含的</

浏览 0提问于2018-02-06得票数 1

回答已采纳

2回答

在sklearn中持久化数据

、、、

我正在使用scikit-learn对文本文档进行聚类。我使用CountVectorizer、TfidfTransformer和MiniBatchKMeans类来帮助我做到这一点。新的文本文档一直被添加到系统中，这意味着我需要使用上面的类来转换文本并预测聚类。我的问题是:我应该如何在磁盘上存储数据？我是否应该简单地处理向量化器、转换器和kmeans对象？我应该只保存数据吗？

浏览 2提问于2012-06-21得票数 5

回答已采纳

2回答

在矩阵上使用降维

、、、

对于有监督的学习，我的矩阵大小真的很大，因此只有某些模型同意与它一起运行。我读到PCA可以在很大程度上帮助降低维数。下面是我的代码： output = subprocess.check_output(command, shell=True)print(len(set(label_tmp)))print(len(label_tmp)) 我希望

浏览 5提问于2016-01-16得票数 1

1回答

最小二乘回归拟合多项式的左一出误差

、、、

我需要实现最小二乘回归来拟合1-27次多项式.然后，我需要得到留出一次错误(k=n的交叉验证)。在进行了大量研究之后，获得LOO错误的最佳方法似乎是使用sklearn cross_val_score()。我的问题是，我不知道如何或是否可能使用回归模型。, X, y, scoring=mse, cv=n) 我不知道估计器是什么，也不知道如何在cross_val_score中得到它。对于python和这些主题来说，这是一个新的主题，因此它的挑战性是原来的两倍。

浏览 0提问于2020-03-06得票数 0

1回答

第三方XML解析器(xpath.js)给出错误“未捕获的结束标记名称:tagName不匹配当前的开始div”

、、、、

使用parse.com的云代码，我试图从网页上抓取数据，然后发送到我的iOS应用程序。我已经用iOS原生实现了web抓取代码，但我正在尝试将此任务转移到后端。我使用了一个名为的node.js库 "Uncaught end tag name: div is not match the curre

浏览 0提问于2014-09-27得票数 3

1回答

将事件处理程序附加到文档，因此不能使用指令的文档标记

、

现在，我已经掌握了创建自定义指令和向DOM元素添加事件侦听器的诀窍，但现在我想将事件侦听器添加到document中。显然没有<document>标记，所以我不能使用指令，或者可能有一些特殊的技巧？侦听器将用于处理对文档的单击，如果可能的话，它将需要访问$scope，因为它需要找出当前正在打开的下拉列表，以便能够关闭它们。

浏览 0提问于2014-05-21得票数 0

回答已采纳

1回答

如何保存稀疏数据集以供scikit-learn使用？

、、

我想用scikit-learn分类器测试我的数据集。我使用Java动态创建特征向量，向量非常稀疏。我想将我的稀疏向量/数据集导出为一种可以轻松与scikit-learn一起使用的格式。我已经用Java语言编写了一个导出函数，将数据集导出为ARFF格式，但我发现用scikit-learn无法读取它。有一些用于ARFF文件的python解析器，但它们不支持稀疏数据集。即哪种格式？！

浏览 5提问于2015-05-15得票数 0

1回答

如何在nyoka中添加自定义Transformer/Estimator，并将管道转换为PMML文档？

我正在编写一个Python scikit-learn管道，它需要自定义的转换器/估计器(而不是sklearn中已经定义的常规转换器)。

浏览 26提问于2019-05-23得票数 0

1回答

向量向量的C++矢量化

、、、

我有一些使用vector<vector<>>存储计算结果的代码。通过基准测试，我发现这正在阻止我的代码矢量化，即使我正在使用适当的C-大步访问元素。我正在尝试提出一种数据结构，它将向矢量化并提高代码的性能。我在这里读了几篇文章，其中几篇文章提到了创建一个类，它在内部有两个独立的向量:一个用于连续存储数据，另一个用于存储标记原始2D vector<vector>中

浏览 1提问于2015-12-03得票数 2

回答已采纳

点击加载更多