今日科技
由于“电池门”事件,苹果大幅调低了官方更换电池的价格,因此近期有不少用户前往苹果零售店更换电池,导致很多零售店的电池库存告急,但一位苹果员工在接受 Business Insider 采访时表示,在他们接受的更换电池需求中,只有不到 10% 的用户通过了诊断测试程序,也就是说,大部分前来要求更换电池的手机,其实并不需要更换。
作者简介
走在Data mining 路上的一名探索者,某著名男女失衡断水断电大学汪;Corozon共勉。
本次学习主要是认识数据。
内容简介
数据对象与属性类型
数据的基本统计描述
数据可视化
数据相似性和相异性的度量
正文
数据对象与属性类型
数据集由数据对象组成,一个数据对象代表一个实体(例如顾客,商品等)。数据对象用属性来描述。在数据库中,数据对象也称作数据元组,它的行对应于数据对象,列对应于属性。
什么是属性?属性是一个数据片段,它表示数据对象的一个特征。属性具有值。比如说性别就是一个属性,它具有男/女/其他三个值。在数据库中,我们一般把属性叫做维。那么怎么样确定一个属性的类型?它的类型由该属性可能具有的值得集合决定。
属性类型具有如下分类:
标称属性
例如职业这个属性:教师,程序员,业务员等
二元属性
是特别的标称属性,它只有两个类别:0或1
序数属性
它的值具有有意义的序,但是序之间的差是未知的。例如:爽,很爽,非常爽。你不知道很爽比爽能爽多少。
数值属性
上面三个属性类型都是定性的,只有数值属性是定量的,即它是可度量的量,用整数或者实数表示。数值属性也可以通过将值域划分成有限个有序类别,把数据离散化得到序数属性。
除了以上的划分方式,在机器学习领域开发的分类算法通常把属性分为离散的和连续的。
数据的基本统计描述
了解了数据属性类型后,我们就来看看当数据在数据集的情况吧。
基本统计描述可以用来识别数据的性质,凸显那些数据值应该视为噪声和离群点。(观测值 = 真实数据 +噪声;离群点属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但是总的来说是和大部分观测量之间有明显不同的观测值)
主要有三类基本统计描述:
中心趋势度量
最常用的就是均值,中位数,众数和中列数。其中中列数是数据集最大和最小值得平均数。
度量数据散布
我们用方差、标准差、极差、分位数、四分位数、百分位数和四分位数极差评估数据散布的情况。五数概括可以用盒图表示,他对于识别离群点是有用的。
Q1就对应四分位数的第一个四分位数,他也是百分位数的第一个百分位数。四分位数中,第三个四分位数与第一个四分位数的差值叫做四分位数极差。
(IQR = Q3 - Q1)
对于描述倾斜分布,单个散布数值度量都不是很有用,因此为了使分布形状更完整的概括,我们可以使用五数概括。(最大最小值,四分位数Q1和Q3,中位数)。
盒图很直观的体现了五数概括:
数据基本统计描述的图形表示
包括分位数图、分位数-分位数图、直方图和散点图。前三个是显示一元分布,即一个属性的数据,而散点图是二元分布。
我们这里主要介绍散点图,它是确定两个数值变量之间看上去是否存在联系,模式和趋势的最有效的图形方法之一。分为正相关、负相关、零相关。
数据可视化
这是一个很大的领域,这里不做总结,实践中学习比较好。
数据相似性和相异性的度量
预备知识:在诸如聚类、离群点分析和最近邻分类等数据挖掘应用中,我们需要评估对象之间相互比较的相似和不相似程度。相似性和相异性都称作邻近性,它们是有关联的。
这里介绍两种上述应用的数据结构:数据矩阵(用于存放数据对象)和相异性矩阵(用于存放数据对象对的相异性值)。
数据矩阵:n个数据对象*p个属性
相异性矩阵:存放n个对象两两之间的邻近度,其中d(i,j)是对象i与对象j之间相异性的度量,高度相似或接近时该值为0。
有了预备知识,现在我们来分别计算被前面讲的属性刻画的对象的相异性。
标称属性的邻近性度量:
两个对象i和j之间的相异性
其中m是俩对象取值相同的属性属,p是属性总数。
二元属性的邻近性度量:
若是对称的二元相异性(属性的两个值等权重)
若是非对称的二元相异性,其中负匹配数t认为是不重要的,因此忽略。
数值属性的相异性:
当h = 1时,叫曼哈顿距离,当h = 2时叫欧几里得距离,就是我们平时说的直线距离。
序数属性的邻近性度量:
我们知道,序数属性有顺序但值之间的差是不知的。所以可以令属性可能的状态数为M,这样就有了一个排位:1,...,Mf;我们用Z(if)代替第i个对象的第f个值r(if)
然后再用任意一种数值属性的距离计算公式计算。
混合类型属性的相异性度量:一种比较可行的方法是将不同属性组合在单个相异性矩阵中,在这之前先把所有有意义的属性转换到共同的区间[0.0,1.0]上。
1
END
1
你的关注是我最大的动力
领取专属 10元无门槛券
私享最新 技术干货