文本挖掘是从非结构化的文本数据中找出有价值的信息,比如电商商铺的投诉信息,通过分析投诉用来改进自己的服务。这次跟大家分享文本挖掘的一些基础概念,希望大家对文本挖掘有个简要的认识。
壹
文本挖掘的流程
数据源
大家工作中用到的文本数据;
通过爬虫抓取的页面文本数据。
对数据源的预处理
对文本数据的预处理取决于具体的业务场景,像舆情分析、情感分析其预处理均不相同;
文本先要做最简单的去噪,比如HTML的一些字符需要去除,只保留文本数据;
对文本数据做编码处理,防止出现乱码的问题;
对颜文字做删除或者手动做标签使其成为有意义的特征、错别字的调整;
对文本做分词处理,分词的效果决定了最终的效果,分词有多种逻辑分词,一种是根据机器学习算法去切词,还有是根据业务场景做统计再切词,不同情境下的歧义词需要我们去分析;
去掉停用词;
如果是做情感分析,根据文本内容,自己设定积极词,消极词,然后通过匹配情感词库对句子打分;
通过n-gram去制作词句,然后再去除停用词,比如打-电话单独拆开来没有实际意义,但是整合起来的打电话又是完全不一样意思。如果内存足够大,计算机能完全记下n-gram的数据的话,那么计算机读懂人的意思也不是不可能的事情;
对词做tf-idf,也就是词频统计和逆文档频率,常用的词不一定有意义,一篇文章或者一个句子里面比较重要的是其中的某个单词,经常出现的我,你,他这样的代词虽然非常多,但是带来的价值并不高;
训练模型:根据自己的业务场景去选择算法,比如分类,深度学习等算法;
主题发现:word2vec,可以找出文本内容中意义相近的单词;
数据分析:可使用seaborn或者matplot等可视化去展示文本的相关性,并且根据业务主题去加一些规则来完善自己的模型。
贰
文本挖掘的应用
用户画像,垃圾邮件分类,对于某些明星的舆论监控等均属于文本挖掘的应用范畴,接下来我们简单的讨论一下文本挖掘在垃圾邮件的应用。
出现了买、加微信这样跟工作无关的词语,这就说明了这封邮件是垃圾邮件,模型学习出来特性之后,告诉邮箱这个是垃圾邮件,它就会被归入到垃圾邮箱中。
对于大量数据的邮件,一个一个看是非常消耗时间的,这样的话就可以交给我们的模型去做自动化的分类了,可以节省很多人力成本,提高效率。
领取专属 10元无门槛券
私享最新 技术干货