我试着做多类分类问题。目标是预测这场比赛是由HomeTeam,AwayTeam还是平局赢得。我从属性中进行了特征工程,最后得到了最终的数据来训练分类器。我确保所有3类的数据都是平衡的。
为了训练分类器,我使用了XGB分类器、Logistic回归、SGD分类器和正常DNN(Tensorflow估计)。我检查了所有分类器的度量标准,并且从分类器中选择了最好的一个。
验证集上的Linear SGD分类器性能
     Class, Precision, Recall,    spe,       f1,      geo,      iba,      sup
      A       0.58      0.69      0.79      0.63      0.74      0.54       275
      D       0.51      0.61      0.66      0.55      0.63      0.40       338
      H       0.81      0.50      0.94      0.62      0.69      0.45       315
   Avg/mean   0.63      0.60      0.79      0.60      0.68      0.46       928        测试数据集的Model性能
              pre       rec       spe        f1       geo       iba       sup
      A       0.87      0.55      0.97      0.67      0.73      0.51        84
      D       0.43      0.69      0.66      0.53      0.67      0.45        83
      H       0.80      0.69      0.86      0.74      0.77      0.58       139我们可以看到,这个模型在<#>A和H类上是稳定的,但是对于D类,精度却很差。我认为由于缺少特性,D类的模型表现不佳,但我做了几次EDA和来提高类D的召回率。
我的问题是,Is这个模型被认为是稳定的?
发布于 2019-01-19 09:37:35
考虑因素:我认为A是不稳定的,因为它在验证和测试结果之间有很大的差异。
回答前的几个问题:
https://datascience.stackexchange.com/questions/44223
复制相似问题