恐怕我对量词背后的理论理解不深,所以请原谅我的问题在你看来很幼稚。
目标:给出任意文本,根据年龄范围对其进行分类,即根据其可读性进行分类。所以我的课程将是年龄范围(简化):5-6,6-8,8-10,10-14,14-16,成人。理想情况下,每个文本文档都应该得到每个类(不仅仅是最有可能的类)的概率。
当前状态:特征提取器就位。它输出每个文本文档的特征向量,大约有30个特征,几乎都是数字的,其中有几个是标称的。我正在试验用Weka训练一个模型,现在使用包含在weka中的SMO svm,通过网格搜索进行优化。我也可以使用libSVM,但目前这并不重要。
问题:
发布于 2012-11-25 15:49:24
你可以尝试做回归而不是分类--基本上你会尝试预测阅读每个文档的“理想”年龄。
这将允许你处理不同的年龄范围,虽然还不完全清楚如何代表班级--也许从取平均值开始,所以对于8-12岁的人,正确的答案是10等等(然后稍微用“成人”的值来玩)。
我的猜测是,它可能导致对模型的更稳健的估计,结果可以很好地解释--例如,如果你有很多8-12和12-15的例子,而算法预测11.9,你可以说这对于8-12的范围来说是“勉强可以理解的”。
https://stackoverflow.com/questions/13551963
复制相似问题