Sklearn库(也就是scikit-learn库)中可以为我们提供常用的聚类算法:
K-Means,
近邻传播算法
DBSCAN等
Sklearn库依赖环境:Numpy, Scipy, matplotlib
sklearn 包含了分类,回归,聚类,降维,模型选择和数据预处理。
而不同算法的出来的结果也是不一样的,这个由于不同的算法有着不的算法特性。同时,不同的算法的计算的时间和效率也是不一样的。如何去选择适当的算法去匹配我们适合的数据,这就需要我们对数据集和算法的应用有着一定的了解。
Sklearn 中标准的数据输入格式,应该采用矩阵的形式进行输入,关于矩阵的运算和变换,在计算机的运算和编程的速率的提升,在此,我就不细细展开了,其标准输入格式:[样本,特征]定义的矩阵形式。
聚类算法:
降维算法:
同时,sklearn的模块简单介绍下:
1.分类:
最近邻算法(neighbors.NearestNeighbors)
支持向量机(svm.SVM)
朴素贝叶斯(naive_bayes.GaussianNB)
决策树(tree.DecisionTreeClassifier)
集成方法(ensemble.BaggingClassifier)
神经网络(neural_network.MLPClassifier)
2.回归:
岭回归(linear_model.Ridge)
Lasso回归(linear_model.Lasso)
弹性网络(linear_model.ElasticNet)
最小角回归(linear_model.Lars)
贝叶斯回归(linear_model.BayesianRidge)
逻辑回归(linear_model.LogistcRegression)
多项式回归(preprocessing.PolynomialFeatures)
3.聚类
K-means(cluster.KMeans)
AP聚类(cluster,AffinityPropagation)
均值聚类(cluster.Meanshift)
层次聚类(cluster.AgglomerativeClustering)
DBSCAN(cluster.DBSCAN)
BIRCH(cluster.Birch)
谱聚类(cluster.SpectralClustering)
4.降维
主成分分析(decomposition.PCA)
截断SVD和LSA(decomposition.TruncatedSVD)
字典学习(decomposition.SparseCoder)
因子分析(decomposition.FactorAnalysis)
独立成分分析(decomposition.FastICA)
非负矩阵分解(decomposition.NMF)
LDA(decomposition.LatentDirichletAllocation)
我们下期再见。
领取专属 10元无门槛券
私享最新 技术干货