文章/答案/技术大牛

发布

社区首页 >问答首页 >用于文档分类的决策树

问用于文档分类的决策树
EN

Stack Overflow用户

提问于 2010-06-25 07:57:19

回答 3查看 4.7K关注 0票数 1

嗨，我想知道是否可以使用决策树进行文档分类，如果可以，那么数据表示应该是怎样的？我知道R包party在决策树中的用法。

document-classification

nlp

classification

text-mining

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-06-25 14:25:12

一种方法是有一个巨大的矩阵，其中每行是一个文档，每列是一个单词。单元格中的值是该单词在该文档中显示的次数。

然后，如果您正在处理“监督学习”的情况，您应该有另一个用于分类器的列，然后您可以使用类似" rpart“的命令(来自rpart包)来创建您的分类树。该命令将以与线性模型(lm)类似的方式输入要进行rpart的公式。

如果您愿意，您还可以尝试首先将单词分组为“单词组”，然后将每一列属于不同的单词组，并使用数字指示文档中有多少单词属于该组。为此，我会看一下"tm“包。(如果你最终做了一些事情，请考虑在这里发布它，这样我们就可以从中学习)

最好的，塔尔

票数 2

Stack Overflow用户

发布于 2010-06-30 09:10:27

本文综述了不同的文本分类技术及其准确率。简而言之，您可以使用决策树对文本进行分类，但还有其他更好的算法。

Sebastiani，F. (2002)。自动文本分类中的机器学习。ACM计算调查，cs.IR/0110053v1。可从：http://arxiv.org/abs/cs.IR/0110053v1获得。

票数 2

Stack Overflow用户

发布于 2010-06-25 08:02:52

我对此表示怀疑--至少按照通常的定义，决策树使用单一标准来指定子分支。在对文档进行分类时，您很少将任何事情都建立在一个单一的标准上--您需要多个标准，即使这样，您也不会得到一个清晰的树状决策，而是一种“这个比另一个更接近于那个”的结果。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3114734

复制

相似问题

问用于文档分类的决策树
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于文档分类的决策树EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于文档分类的决策树
EN