我在R中有一个因变量,大约有11000个等级。有足够的数据来建模这许多类,但是一些统计包(如h2o
)只支持多达1,000个类。
在高等级的R中,什么是分类模型的最佳选择?
发布于 2016-05-13 12:55:50
将n个响应类聚到m个集群中,其中m < 1,000
。对于传入的实例,我使用您最喜欢的分类算法将其分配给m类中的一个。一旦将实例分配给特定的集群,您只需要通过一个对构成该特定集群的类进行培训的分类器来运行它。
我使用这种特殊的架构将文本分配给一种可能的“情感”,下面我将对此进行说明。输入的文本首先使用对正负文本进行训练的二进制分类器进行评分。考虑到文本的正向概率(如分类器所预测的),然后将文本路由到一系列所有正的或一系列所有的负面情绪分类器中,其中指定一个特定的情感。
同样的设计应该适用于你的情况。首先,为实例分配一个集群。在分配的情况下,将实例发送到下一阶段--在那里进行最终的分类。
https://datascience.stackexchange.com/questions/11758
复制