首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >可读性分类器的哪种方法

可读性分类器的哪种方法
EN

Stack Overflow用户
提问于 2012-11-25 14:32:10
回答 1查看 101关注 0票数 0

恐怕我对量词背后的理论理解不深,所以请原谅我的问题在你看来很幼稚。

目标:给出任意文本,根据年龄范围对其进行分类,即根据其可读性进行分类。所以我的课程将是年龄范围(简化):5-6,6-8,8-10,10-14,14-16,成人。理想情况下,每个文本文档都应该得到每个类(不仅仅是最有可能的类)的概率。

当前状态:特征提取器就位。它输出每个文本文档的特征向量,大约有30个特征,几乎都是数字的,其中有几个是标称的。我正在试验用Weka训练一个模型,现在使用包含在weka中的SMO svm,通过网格搜索进行优化。我也可以使用libSVM,但目前这并不重要。

问题:

  1. 您是否会对此任务使用不同的分类器,特别是wrt,即每类概率所需的输出?
  2. 训练数据并没有在这样好的不相交的范围内被分割。这些范围可能重叠。有些文本是(手动)分类的10-12范围,另一些,来自不同的来源,被归类为11-13,或8-13,等等。你将如何处理这个问题?修改过滤/培训?不是修改它们,而是以不同的方式解释结果?
EN

回答 1

Stack Overflow用户

发布于 2012-11-25 15:49:24

你可以尝试做回归而不是分类--基本上你会尝试预测阅读每个文档的“理想”年龄。

这将允许你处理不同的年龄范围,虽然还不完全清楚如何代表班级--也许从取平均值开始,所以对于8-12岁的人,正确的答案是10等等(然后稍微用“成人”的值来玩)。

我的猜测是,它可能导致对模型的更稳健的估计,结果可以很好地解释--例如,如果你有很多8-12和12-15的例子,而算法预测11.9,你可以说这对于8-12的范围来说是“勉强可以理解的”。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13551963

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档