有没有一种标准的方法来比较分类算法和聚类算法的结果(为了准确性)?我有只有两个真实标签的数据。当我对它运行二进制分类时,很容易检查准确性,但是如果我运行聚类,我要求它将数据聚类到5组中,我如何检查准确性并将其与二进制分类进行比较。我知道聚类不适合(双标签)数据,但是如何从数学上证明这一点呢?
发布于 2014-04-18 04:11:26
聚类到两个以上的集群是进行两类分类的一种方法(只需选择每个集群中更常见的标签作为该集群的预测标签)。然而,这是一种非常奇怪的方法,因为它会忽略标签,直到计算出聚类后的最后一步。监督学习(即分类)提供了更强大的工具,如用于分类的随机森林。
发布于 2014-04-18 16:55:04
不要将聚类视为分类
他们有非常不同的目标,真的不应该比较。分类是关于重现已知标签,你需要注意过拟合,训练/测试分裂等。另一方面,聚类是探索性的。任何真正的探索性方法最终都不会找到任何东西,或者只会得到明显的结果。
通过尝试以与分类相同的方式进行评估,您将“过度适应”产生明显结果的聚类方法。
相反,应该通过查看结果来评估集群。如果你从结果中学到了什么,那么它就是好的。如果你从结果中学到了什么,那么就是好的。如果没有,请重试。
不要试图在每件事上都加上一个数字
有更多的黑色,白色和50种灰色阴影。把所有的东西都放在一个数字中是一个灰色的世界视图...这很流行(“善与恶”的思维也是如此);但在科学领域,我们应该做得更好。
https://stackoverflow.com/questions/23142453
复制相似问题