数据挖掘的基本流程
1、理解商业数据:只要是效力于企业,所有的工作都是为了商业化,因此一定要从商业的角度理解项目需求,在这个基础上再对数据挖掘的目的进行定义。
2、数据的理解:理解数据的定义,至少当你和人讲起的时候,你们讲的是同一个东西。然后对数据进行描述以及质量的验证。
3、数据准备:收集数据、数据的清洗及特征处理都在这一步完成。
4、模型的建立:选择和应用各种数据挖掘模型,并进行优化,以达到更好的效果。
5、模型的评估:对模型进行评价和打分,并检查模型的每个步骤,确认模型实现了商业目标。
6、上线发布:从数据中提炼出结论和知识,转化成一中用户可以使用的方式,可以是一份报告、也可以是一个比较复杂的重复挖掘的脚本,作为之后日常工作的一部分。
数据挖掘常用算法
为了进行数据挖掘,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威学术组织ICDM ( the IEEE International Conference on Data Mining )筛选出了十个最常用的算法。
按照使用的目的,可以分为四类。
分类算法:C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART
聚类算法:K-Means、EM
关联分析:Apriorl
连接分析:PageRank
C4.5算法,就是决策树算法,它创造性的可以在决策过程中就进行预剪枝,并且可以处理连续的属性,也可以对不完整的数据进行处理。
朴素贝叶斯模型是基于概率论的原理,它的思想是对未知物体分类的时候需要求解这个未知物体出现在各个条件下的概率,那个大就属于哪一类,比如天气和田七,文章中出现中药后出现田七的概率明显高于天气。
SVM又叫支持向量机,英文名是Support Vector Machine,简称SVM,适合超平面分类模型。
KNN也叫临近算法,就是每个样本可以用它最接近的K个邻居来代表,如果几个样本距离A 的范围很近,那样本都可以归属于A。
AdaBoost相当与一个联合提升算法,将多个效果弱的分类器一起联合使用以达到提升效果的目的。
Apriori是一种挖掘关联规则的算法,通过挖掘经常出现在一起的集合来揭示之间的关系。
CART代表分类和回归树,建立两棵树,一棵是分类树,一棵是回归树,属于一种决策学习的方法。
EM算法也称为大期望算法,是求参数最大似然估计的一种方法。原理是这样的,如果想要评估参数A和参数B,在开始的状态下二者都是未知的,但是知道了A可以得到B信息,反过来也是如此,可以先赋值A然后的到B的估值,然后从Bde估值重新计算A,过程持续,直到收敛为止。
K-Means算法是一个聚类算法,可以理解为先设置一个中心点,然后计算与中心的距离,距离那个近,就归属于那个类别。
PageRank是一种类似于论文影响力的计算方式,一篇论文呗引用的次数越多即代表他的影响力越强,goole搜索引擎ed排序方法也是类似的原理,这也是goole搜索引擎更能搜到你想要的内容的原因。
以上是关于数据挖掘的一些学习心得,希望对你有帮助。
领取专属 10元无门槛券
私享最新 技术干货