我有一堆文件,我想分类,哪些是关于足球(无监督的学习,我不想手动标签的文件)。
我想到的一种方法是上网搜索足球文章中最受欢迎的单词,列出词汇表(例如:得分、射击、世界杯等等)。然后以某种方式使用该词汇表对文档进行分类(如果某个特定的词汇表中包含30%的单词,那么该文档将讨论足球)。
我想知道这是一个有效的方法,还是有更好的现有方法。真的很感谢你的帮助。
发布于 2019-05-29 16:04:40
首先,您需要有一组火车,这意味着您应该手动注释哪些文档与足球有关,哪些不相关。然后,你需要处理可用的语料库(删除数字,停止词等,词干),并建立一个词汇表。在此之后,您应该选择适当的特性表示。每个术语都是一个特性,您必须决定如何重新处理每个特性,这意味着您将评估什么样的权重。一种方法是tf-国防军的代表。然后你就可以训练一个分类器了。
*避免手工标记文本的唯一方法是找到一些已经用同一种语言标记的文本。
https://datascience.stackexchange.com/questions/52853
复制相似问题