我正在用Python制作一个聊天机器人。代码:
import nltk
import numpy as np
import random
import string
f=open('/home/hostbooks/ML/stewy/speech/chatbot.txt','r',errors = 'ignore')
raw=f.read()
raw=raw.lower()# converts to lowercase
sent_tokens = nltk.sent_tokenize(raw)# converts to list of sent
我遵循这个对我的数据集使用朴素贝叶斯算法。在这里,数据集被拆分为两个文件,一个是review.txt,另一个是label.txt。我在这里使用了"train_test_split“函数。
我的代码:
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB
from sklearn.metrics import confusion_matrix
我已经使用scikit-learn库进行了文本分类,导入了以下分类器:
from sklearn.linear_model import RidgeClassifier
from sklearn.svm import LinearSVC
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import Perceptron
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.naive_bayes impo
我试图为类1、2、3和4的多标签分类定义一组类/标签,但是数组中出现了意外的问题,还包括以下内容:
multilabel.classes_数组(‘',’','1','2','3','4',dtype=object)
我只想把1,2,3,4作为我的标签,但我想不出一个方法来删除它。
我的代码:
import pandas as pd
import numpy as np
import os
import ast
import seaborn as sns #pip install seaborn
import mat
我正在处理用几种语言编写的大量文档。我想计算文件之间的余弦距离从他们的tf-以色列国防军的分数。到目前为止,我已经:
from sklearn.feature_extraction.text import TfidfVectorizer
# The documents are located in the same folder as the script
text_files = [r'doc1', r'doc2', r'doc3']
files = [open(f) for f in text_files]
documents = [f.
我试着用scikit学习logistic回归对多类数据进行分类。我用一个热编码器对类进行编码。但是,当我尝试相同的,我得到了糟糕的输入形状错误。在sklearn回归中是否可以使用一个热编码值?
from sklearn.preprocessing import OneHotEncoder
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
onehot_encoder = OneHotE
有类似的和库,如和。但我找不到解决问题的办法。我有一组文档,我试图使用scikit-learn的对它们进行聚类。首先,我使用对文档进行矢量化。然后,我简单地对数据进行聚类并接收预测的标签。我的问题是:我如何解释集群形成的原因?我的意思是,假设有2个预测的簇(簇1和簇2)。(因为我们的输入数据是向量化文档,我们的特性是向量化的“单词”)对于创建集群1(或集群2)?非常重要。
下面你可以找到我目前正在做的事情的一个最小的例子。这不是我想要达到的目标的一个极小的例子(因为我不知道如何实现)。
import numpy as np
import pandas as pd
from sklearn.cl
我有两句话:
sent1="This work has been completed by Christopher Pan".
sent2="This job has been finished by Mark Spencer".
我使用Word2vec计算句子的相似度:
from sklearn.metrics.pairwise import cosine_similarity
def avg_sentence_vector(words, model, num_features, index2word_set):
featureVec = np.ze
我在处理一个不平衡的数据集。我正在使用决策树(scikit-learn)来构建一个模型。为了解释我的问题我用了虹膜数据集。当我设置class_weight=None时,我理解当我使用predict_proba时树是如何分配概率分数的。当我设置class_weight='balanced'时,我知道它使用目标值来计算类权重,但我无法理解树是如何分配概率分数的。
import sklearn.datasets as datasets
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTre
我有两个清单,其中包含地面真相和预测图像。这两个列表都包含二进制图像。我需要获得准确性,F1评分,召回和精确报告之间的这两个名单。
sklearn.metrics.classification_report可以用于获取预测值和真值之间的分类报告,但它只接受一维数组。
如何修改它以获得包含二值图像的两个图像列表之间的分类报告?还是有更好的方法来做这件事?我的代码:
import os
import cv2
import numpy as np
from sklearn.metrics import confusion_matrix
from sklearn.metrics import a
我正试图从短剧-学习中向CountVectorizer添加Lematization,如下所示
import nltk
from pattern.es import lemma
from nltk import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
from nltk.stem import WordNetLemmatizer
class LemmaTokenizer(object):
def __call__
当我在VScode中调用pip >VScode时,它还添加了我没有导入到项目中的库。我的朱庇特笔记本里有这样的图书馆:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from s
我正在使用支持向量机(SVM)算法进行分类。我正在使用的卫星图像非常大(5GB),这就是为什么我试图利用multiprocessing工具来加快进程的原因。
我的问题是,我的电脑没有使用所有可用的核心。我将代码运行到我的笔记本电脑(4个核心),但这一过程需要永远完成。不过,它使用了所有的4个CPU核心。当我尝试在有12个CPU核的桌面PC上运行相同的代码时,其中只有5个达到100%。下面,我们看到要分类的图像和右边使用的培训数据。
📷
import os
import numpy as np
from osgeo import gdal, gdal_array, gdalconst
from
我对机器学习技术还是很陌生的,而且我在学习一些科幻文档和其他堆叠溢出的文章时遇到了困难。我正试图从一堆医学数据中建立一个简单的模型,这将帮助我预测一个病人可能属于哪三个类别。
我通过熊猫加载数据,将所有对象转换为整数(例如男性= 0,Female=1 ),并运行以下代码:
import numpy as np
import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import label_binarize
from sklearn.ensemble
我试图分别使用不同的数据集作为训练集和测试集。但是有了下面的代码,我得到了:
File "main.py", line 84, in main_test X2 = tf_transformer.transform(word_counts2) File "/Library/Python/2.7/site-packages/sklearn/feature_extraction/text.py", line 1020, in transform n_features, expected_n_features)) ValueError: Input