.分别使用CountVectorizer与TfidfVectorizer,并且去掉停用词的条件下,对文本特征进行量化的朴素贝叶斯分类性能测试特征筛选使用Titanic数据集,通过特征筛选的方法一步步提升决策树的预测性能总结...mnb_count= MultinomialNB ()
#使用朴素贝叶斯分类器,对CountVectorizer(不去除停用词)后的训练样本进行参数学习。...,我们可以知道,使用CountVectorizer在不去掉停用词的条件下,对训练和测试文本进行特征量化,并利用默认配置的朴素贝叶斯分类器,在测试文本上可以得到83.977%的预测准确性。...,可得出结论:在使用TfidfVectorizer而不去掉停用词的条件下,对训练和测试文本进行特征量化,并利用默认配置的朴素贝叶斯分类器,在测试文本上可以得到比CountVectorizer更加高的预测准确性...使用Titanic数据集,尝试通过特征筛选来寻找最佳的特征组合,并且达到提高预测准确性的目标。