文章/答案/技术大牛

发布

《数据挖掘：概念与技术》笔记

文章来源：企鹅号

今日科技

由于“电池门”事件，苹果大幅调低了官方更换电池的价格，因此近期有不少用户前往苹果零售店更换电池，导致很多零售店的电池库存告急,但一位苹果员工在接受 Business Insider 采访时表示，在他们接受的更换电池需求中，只有不到 10% 的用户通过了诊断测试程序，也就是说，大部分前来要求更换电池的手机，其实并不需要更换。

作者简介

走在Data mining 路上的一名探索者，某著名男女失衡断水断电大学汪；Corozon共勉。

本次学习主要是认识数据。

内容简介

数据对象与属性类型

数据的基本统计描述

数据可视化

数据相似性和相异性的度量

正文

数据对象与属性类型

数据集由数据对象组成，一个数据对象代表一个实体（例如顾客，商品等）。数据对象用属性来描述。在数据库中，数据对象也称作数据元组，它的行对应于数据对象，列对应于属性。

什么是属性？属性是一个数据片段，它表示数据对象的一个特征。属性具有值。比如说性别就是一个属性，它具有男/女/其他三个值。在数据库中，我们一般把属性叫做维。那么怎么样确定一个属性的类型？它的类型由该属性可能具有的值得集合决定。

属性类型具有如下分类：

标称属性

例如职业这个属性：教师，程序员，业务员等

二元属性

是特别的标称属性，它只有两个类别：0或1

序数属性

它的值具有有意义的序，但是序之间的差是未知的。例如：爽，很爽，非常爽。你不知道很爽比爽能爽多少。

数值属性

上面三个属性类型都是定性的，只有数值属性是定量的，即它是可度量的量，用整数或者实数表示。数值属性也可以通过将值域划分成有限个有序类别，把数据离散化得到序数属性。

除了以上的划分方式，在机器学习领域开发的分类算法通常把属性分为离散的和连续的。

数据的基本统计描述

了解了数据属性类型后，我们就来看看当数据在数据集的情况吧。

基本统计描述可以用来识别数据的性质，凸显那些数据值应该视为噪声和离群点。（观测值 = 真实数据 +噪声；离群点属于观测量，既有可能是真实数据产生的，也有可能是噪声带来的，但是总的来说是和大部分观测量之间有明显不同的观测值）

主要有三类基本统计描述：

中心趋势度量

最常用的就是均值，中位数，众数和中列数。其中中列数是数据集最大和最小值得平均数。

度量数据散布

我们用方差、标准差、极差、分位数、四分位数、百分位数和四分位数极差评估数据散布的情况。五数概括可以用盒图表示，他对于识别离群点是有用的。

Q1就对应四分位数的第一个四分位数，他也是百分位数的第一个百分位数。四分位数中，第三个四分位数与第一个四分位数的差值叫做四分位数极差。

（IQR = Q3 - Q1）

对于描述倾斜分布，单个散布数值度量都不是很有用，因此为了使分布形状更完整的概括，我们可以使用五数概括。（最大最小值，四分位数Q1和Q3，中位数）。

盒图很直观的体现了五数概括：

数据基本统计描述的图形表示

包括分位数图、分位数-分位数图、直方图和散点图。前三个是显示一元分布，即一个属性的数据，而散点图是二元分布。

我们这里主要介绍散点图，它是确定两个数值变量之间看上去是否存在联系，模式和趋势的最有效的图形方法之一。分为正相关、负相关、零相关。

数据可视化

这是一个很大的领域，这里不做总结，实践中学习比较好。

数据相似性和相异性的度量

预备知识：在诸如聚类、离群点分析和最近邻分类等数据挖掘应用中，我们需要评估对象之间相互比较的相似和不相似程度。相似性和相异性都称作邻近性，它们是有关联的。

这里介绍两种上述应用的数据结构：数据矩阵（用于存放数据对象）和相异性矩阵（用于存放数据对象对的相异性值）。

数据矩阵：n个数据对象*p个属性

相异性矩阵：存放n个对象两两之间的邻近度，其中d（i，j）是对象i与对象j之间相异性的度量，高度相似或接近时该值为0。

有了预备知识，现在我们来分别计算被前面讲的属性刻画的对象的相异性。

标称属性的邻近性度量：

两个对象i和j之间的相异性

其中m是俩对象取值相同的属性属，p是属性总数。

二元属性的邻近性度量：

若是对称的二元相异性（属性的两个值等权重）

若是非对称的二元相异性，其中负匹配数t认为是不重要的，因此忽略。

数值属性的相异性：

当h = 1时，叫曼哈顿距离，当h = 2时叫欧几里得距离，就是我们平时说的直线距离。

序数属性的邻近性度量：

我们知道，序数属性有顺序但值之间的差是不知的。所以可以令属性可能的状态数为M，这样就有了一个排位：1，...，Mf；我们用Z(if)代替第i个对象的第f个值r（if）

然后再用任意一种数值属性的距离计算公式计算。

混合类型属性的相异性度量：一种比较可行的方法是将不同属性组合在单个相异性矩阵中，在这之前先把所有有意义的属性转换到共同的区间[0.0,1.0]上。

END

你的关注是我最大的动力

发表于: 2018-01-212018-01-21 14:09:41
原文链接：http://kuaibao.qq.com/s/20180121G0ABAK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

《数据挖掘：概念与技术》笔记

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐