我的scikit学习管道是线性回归的,但是我的问题域不应该允许输出高于某个值,所以我想限制输出。我知道我可以先运行我的模型,然后做一个y = np.where(y > MAX_VALUE, MAX_VALUE, y),但我可能还有几个这样的自定义逻辑步骤,所以我想把它封装到管道中。sklearn能做到这一点吗?
我尝试编写自己的自定义估计器,如下所示,它给出了错误All intermediate steps should be transformers and implement fit and transform or be the string 'passthrough
我正在尝试对来自熊猫数据帧的不同特征训练一个元分类器。
这些特征本质上要么是文本的,要么是分类的。
我在拟合模型时遇到了问题,错误如下:“发现样本数量不一致的输入变量: 1,48678”。我理解这个错误的含义,但不知道如何修复它。非常感谢您的帮助!
我使用的代码如下:
import pandas as pd
from sklearn import preprocessing
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_n
我正在尝试在sklearn中构建一个使用KNeighborsClassifier和支持向量机的GridSearchCV管道。到目前为止,我已经尝试了以下代码:
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors=3)
from sklearn import svm
from sklearn.s
我在Google上训练了一个回归TPOT算法,其中TPOT过程的输出是一些锅炉板Python代码,如下所示。
import numpy as np
import pandas as pd
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline, make_union
from tpot.builtins import StackingEstimator
from
我有一个关于投票分类器的简单问题。据我所知,投票分类器应该比那些建立它的个体预测者(群体的智慧)具有最高的准确性。以下是代码
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_
我正在使用sklearn包构建逻辑回归模型,然后对其进行评估。具体地说,我想使用交叉验证来实现这一点,但是不能找出使用cross_val_score函数来实现的正确方法。
根据我看到的和一些,我需要传递函数模型、特性、结果和评分方法。然而,AUC不需要预测,它需要概率,所以它可以尝试不同的阈值,并基于此计算ROC曲线。那么,这里的正确方法是什么?这个函数将'roc_auc'作为一种可能的评分方法,所以我假设它与它兼容,只是不确定正确的使用方法。下面是示例代码片段。
from sklearn.linear_model import LogisticRegression
from
我正在编写Dhaval Patel的一个教程,以创建一个线性回归预测模型,以获得基于年龄和里程的汽车销售价格。这个模型效果很好,但我不确定如何通过输入来获得预测的销售价格,因为我对所有这些都是新手,但真的很想学习!
以下是基本的python脚本,用于生成销售价格的输出预测-
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
df = p
我成功地使用sklearn的多元线性回归训练了我的模型。这是我使用的代码:
import pandas as pd
dataset = pd.read_csv('C:\\mylocation\\myfile.csv')
dataset2 = pd.get_dummies(dataset)
y = dataset.iloc[:, 31:32].values
dataset2.pop('Target')
X = dataset2.iloc[:, :180].values
#Split the dataset
from sklearn.cross_validati
import numpy as np
from flask import Flask, request, jsonify, render_template
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.linear_model import LogisticRegression
from flask_bootstrap import Bootstr
我一直在尝试用Python语言实现支持向量回归的时间序列预测工具。我使用scikit-learn中的SVR模块进行非线性支持向量回归。但我对未来事件的预测有严重的问题。回归线很好地拟合了原始函数(来自已知数据),但只要我想预测未来的步骤,它就会返回上一个已知步骤的值。
我的代码如下所示:
import numpy as np
from matplotlib import pyplot as plt
from sklearn.svm import SVR
X = np.arange(0,100)
Y = np.sin(X)
svr_rbf = SVR(kernel='rbf'
我有一个简单的线性回归模型,我需要计算方差和协方差。如何用线性回归计算方差和协方差?
方差,在机器学习的上下文中,是由于模型对训练集中的小波动的敏感性而产生的一种错误。
from sklearn.linear_model import LinearRegression
import numpy as np
X = np.array([2,3,4,5])
y = np.array([4,3,2,9] )
#train-test split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, ra
假设我想使用sklearn管道应用几种特征选择方法。以下是一个例子:
from sklearn.datasets import load_breast_cancer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.feature_selection import VarianceThreshold
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
X, y = load_
考虑将PCA和回归链接在一起的任务,其中PCA执行维数约简和回归进行预测。
摘自sklearn文档的示例:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model, decomposition, datasets
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
logistic = linear_model.LogisticRegression()
pc
我对核回归的理解是,当使用线性核进行无惩罚的岭回归时,结果应该类似于线性回归。在玩具的例子中,线性回归有更好的Rsq。问题的一部分,我认为SK是使用样本空间的核心矩阵,而不是较小的样本和特征空间,在这种情况下,特征空间要小得多。我如何“解决”这个问题,或者我可能做错了什么-一个新手的内核回归。线性核回归的分值在-3左右,线性回归的分数约为50%。
from sklearn.datasets import load_diabetes
from sklearn.kernel_ridge import KernelRidge
from sklearn.utils import shuffle
fro
即使有10度回归,我也得到了平坦的回归。但是,如果我将日期变量更改为数字,那么回归就会起作用!有人知道为什么吗? from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LinearRegression
from scipy.optimize import curve_fit
## RESHAPE DATA ##
X = transformed_data.ds.values.reshape(
我试图了解这个基于doc2vec的ML程序预测了什么:
import logging, gensim
from gensim.models.doc2vec import TaggedDocument
from gensim.models import Doc2Vec
import re
import os
import random
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_sele