我正在比较各种技术,并想找出对大量文本文档进行矢量化和降维的最佳方法。我已经测试了Bag of Words和TF-IDF,并使用PCA、SVD和NMF进行了降维。使用这些方法,我可以减少我的数据,并知道基于解释的方差的最佳维度数量。 然而,我想用doc2vec做同样的事情,考虑到doc2vec本身是一个降维工具,找出我的
我有一个有很多列/特征的数据集,我想建立ML模型,将数据分类为1和0,但我想减少列数。我读了很多关于feature selection的书,但有些东西我不太清楚。当我减少列/特征的数量时,我如何确保最少的信息丢失,或者我如何知道我是否丢失了大量信息?我可以删除的最佳特征数是多少,我如何知道我没有过度拟合模型?我用过PCA,我做了这样的东西:
from sklearn.model_selection impor
我无法理解如何开始我的解决方案。我有一个569行的矩阵,每个行代表我的数据的一个样本,30列代表每个样本的特征。我的直觉是绘制每一行,并查看集群(如果有)是什么样子,但我不知道如何在单个散点图上做超过2行。 我花了几个小时浏览教程,但还不能理解如何将其应用于我的数据。我是不是遗漏了什么基本的东西?our_data is a 2-dimensional matrix of size 569 x 30
plt.scatter(our_data[0,:]