我有一个有很多列/特征的数据集,我想建立ML模型,将数据分类为1和0,但我想减少列数。我读了很多关于feature selection的书,但有些东西我不太清楚。当我减少列/特征的数量时,我如何确保最少的信息丢失,或者我如何知道我是否丢失了大量信息?我可以删除的最佳特征数是多少,我如何知道我没有过度拟合模型?import pandas as pd
from sklearn.metrics import accuracy_score
from skle
我正在比较各种技术,并想找出对大量文本文档进行矢量化和降维的最佳方法。我已经测试了Bag of Words和TF-IDF,并使用PCA、SVD和NMF进行了降维。然而,我想用doc2vec做同样的事情,考虑到doc2vec本身是一个降维工具,找出我的模型的维数的最佳方法是什么?有没有什么统计方法可以帮助我找到vector_size的最佳数量? 提前感谢!