首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >有许多分类标签的数据使用的最佳策略是什么?

有许多分类标签的数据使用的最佳策略是什么?
EN

Data Science用户
提问于 2016-09-02 15:31:28
回答 1查看 272关注 0票数 1

通常,对于具有以下特征的数据,应该使用什么样的监督算法和技术:

  • 2个潜在的分类标签?
  • 3-5个潜在的分类标签?
  • 6-10个潜在的分类标签?
  • 10-50个潜在的分类标签?
  • 50种或更多潜在的分类标签?

我的主要问题:

  1. 在这些不同层次的可能的类标签中,哪些算法学习最有效?
  2. 在这些层中,哪种算法通常以最少的数据量做出最好的预测?

我知道,在某种程度上,使用回归而不是分类器更有意义。这会有几个潜在的类别标签?

EN

回答 1

Data Science用户

回答已采纳

发布于 2016-12-05 09:50:45

影响分类器算法选择的因素很多。与输入特性的性质相比,目标类的数量通常没有影响。

例如,如果您的输入数据是自然音频或图像,那么不管有多少类,深度卷积神经网络都很可能具有最佳的性能。

在这些层中,哪种算法通常以最少的数据量做出最好的预测?

没有基于输出类数量的先验最佳方法。“最佳预测”和“最小数据量”也是一种权衡,简单的模型在少量数据上的表现要好于复杂的模型,但更复杂的模型可以更好地处理更多的数据,然后给出更好的预测。在某种程度上,您可能有足够的数据,以便更多的采样不会改进您经过培训的模型,但您需要建立经验。

大多数算法允许您通过改变超参数来探索它们之间的权衡,从而使模型对于更小的数据集更简单,在有更多的培训数据时更复杂。

我知道,在某种程度上,使用回归而不是分类器更有意义。这会有几个潜在的类别标签?

严格地说,这不是真的。一般来说,分类和回归之间的区别是一条硬线。例如,如果你将手写符号分类为一个字母,那么如果你在10,100或1000类中这样做并不重要,那么符号从一组对象变成一个连续的空间来进行回归是没有实际意义的。

如果目标类表示某个连续变量中的范围(例如,根据事件发生年份的某些属性对事件进行分类),则可能是正确的。但在这种情况下,这个问题从一开始就是一个回归问题。实际上,您最好在这种情况下训练一个回归算法,即使是针对少量的目标类,只需将预测绑定到相关的类中即可。

您的目标类也可能表示有序集合中的秩或序列。在这种情况下,当您有较长的序列时,这看起来更像是一个回归问题。通常,如果您可以将目标类排列成一个有意义的序列,那么您可能能够执行某种序回归,这可能比使用分类器更好。但是,对符号/字母进行分类并不是这样的,因为其中的顺序是任意的。

最后,您可能面临大量的类,以至于单个分类器模型不堪重负,您需要以不同的方式处理这个问题。

对于最后一个例子,考虑一个宠物图像的分类器。如果它有三个类别(猫,狗,兔子),那么你可以清楚地使用标准的分类方法。即使按品种分类--100级--这种方法仍然很有效,就像在ImageNet比赛中看到的那样。但是,一旦您决定尝试检测每个宠物的身份(技术上仍然是一个类),您就会遇到一个使用简单分类器技术的问题--在这种情况下,解决方案的结构需要更多的思考。一种可能的解决方法是训练一种回归算法,从图像中提取生物特征数据(鼻子长度、眼睛之间的距离、颌骨与耳朵之间的夹角),并根据观察到的个体的生物特征数据数据库将分类阶段移动到KNN中。这就是一些人脸识别算法的工作原理,首先将人脸图像映射成一个易于分类的连续空间(通常使用深度CNN),然后使用一个更简单的分类器,该分类器可以很好地扩展到该空间。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/13823

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档