首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用一组已知词汇表对文档进行分类

使用一组已知词汇表对文档进行分类
EN

Data Science用户
提问于 2019-05-29 15:16:11
回答 1查看 55关注 0票数 1

我有一堆文件,我想分类,哪些是关于足球(无监督的学习,我不想手动标签的文件)。

我想到的一种方法是上网搜索足球文章中最受欢迎的单词,列出词汇表(例如:得分、射击、世界杯等等)。然后以某种方式使用该词汇表对文档进行分类(如果某个特定的词汇表中包含30%的单词,那么该文档将讨论足球)。

我想知道这是一个有效的方法,还是有更好的现有方法。真的很感谢你的帮助。

EN

回答 1

Data Science用户

发布于 2019-05-29 16:04:40

首先,您需要有一组火车,这意味着您应该手动注释哪些文档与足球有关,哪些不相关。然后,你需要处理可用的语料库(删除数字,停止词等,词干),并建立一个词汇表。在此之后,您应该选择适当的特性表示。每个术语都是一个特性,您必须决定如何重新处理每个特性,这意味着您将评估什么样的权重。一种方法是tf-国防军的代表。然后你就可以训练一个分类器了。

*避免手工标记文本的唯一方法是找到一些已经用同一种语言标记的文本。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/52853

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档