如何解决机器学习图像识别中的常见问题
介绍大多数与图像识别相关的分类问题都存在着众所周知的问题。例如,通常不会有足够的数据来正确训练分类系统,数据可能有一些未充分表示的类,而且最常见的是,使用未经审查的数据意味着使用标签不佳的数据。数据是决定你的努力是否会失败或成功的关键。这些系统不仅仅需要比人类更多的数据来学习和区分不同的类,它们还需要成千上万倍的数据来完成这项工作。深度学习依靠大量高质量的数据来预测未来的趋势和行为模式。
通过存储从模型的预测中获得的真阳性,假阳性,真阴性和假阴性的每个标签的数量,我们可以使用召回和精确度来估计每个标签的性能。精度定义为:
召回被定义为:
召回和/或精确将揭示潜在的问题,但不能解决它。但是,有不同的方法可以缓解与类分布明显不平衡相关的问题:通过为每个标签分配不同的系数;通过重新采样原始数据集,可以通过对少数类进行过采样和/或对多数类进行欠采样。也就是说,过采样可能会过度拟合,因为分类边界会更严格,而小数据集会引入偏差;通过应用SMOTE方法(合成少数过采样技术)来解决复制不太频繁类数据的问题。
领取专属 10元无门槛券
私享最新 技术干货