最近一段时间在文本聚类的工作,一路也遇到了不少坑,自己也写一篇文章记录了一下自己的过程.
1:什么是文本聚类
先说说聚类的概念,聚类又称群分析,是数据挖掘的一种重要的思想,聚类(Cluster)分析是由若干模式...聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。(以上来自百度百科)....再说到文本聚类,文本聚类其实也就是在文本方向上的应用,首先我们要把一个个文档的自然语言转换成数学信息,这样形成高维空间点之后再去计算点与点之间的距离,然后将这些距离比较近的聚成一个簇,这些簇的中心成为簇心...我接到的任务是在评论文本上进行聚类操作,起初以为很简单,但是发现其实还是不是很好操作的,有几个原因,一方面是评论有些部分语义其实是重复的,这样导致一些类别会重合,这样使用聚类的方法往往是不准确的,另一方面是一些评论上的词语使用近义词和一些音译字来替换词语...并且我们用的一些算法也有一些问题,比如我们使用的K-means方法,每一次选取的簇心是随机的,这样一来得到的结果也是每次不一样的,所以聚类算法也是比较难评价,这也是一些困难的部分.
2:文本聚类的过程