一、机器学习的定义:计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P。因为E使得在T上的表现P有所提高。
二、监督学习 ( supervised learning ) :
例1. 房价预测
给算法一个数据集,其中包含了正确答案,在房价预测中表示,有一个房价的数据集,这个数据集中的每个样本都有“正确”已知的价格,算法的目的就是为了给出更多的“正确”答案。
专业来说,这一类问题称为回归问题( regression ),回归问题指要预测连续的数值输出,在房价预测中,一个房子的实际价格是一个离散值,但是房价的可能的值是一个连续值,即设法预测连续值的属性。
例2. 判断肿瘤的良性或恶性
有一个数据集,蓝色X尺寸的肿瘤是良性,红色X尺寸的肿瘤是恶性,那么判断紫色箭头尺寸的肿瘤是良性还是恶性,或良性的概率和恶性的概率。
这是一个分类问题( classification ),分类问题是指设法预测一个离散值输出,0或1,良性或恶性,当然也可能不止两类,有多种类型。
上图中有0和1表示良性和恶性,也可以换一种标记,用O和X表示良性和恶性。 蓝色O表示良性,红色X表示恶性。
另外,往往真实的数据集不止一个特征,比如下图有两个特征:年龄和肿瘤尺寸,然后算法会拟合曲线将良性的恶性分开,然后看紫色的要预测的病人很可能是属于蓝色的一种,即良性。
除这些特征外,还可以有很多特征,比如肿瘤厚度、肿瘤细胞大小均匀性、肿瘤细胞形状均匀性等等。有的学习问题可能要处理无穷多的特征。比如支持向量机算法可以处理无穷多的算法。
Supervised Learning:“right answers” given
Regression:predict continuous valued output(such as price)
Classification:discrete valued output ( 0 or 1 )
三、无监督学习 ( unsupervised learning ) :
监督学习的数据都有明确区分的标签:
非监督学习的数据集都有相同的标签或者都没有标签,然后算法对这个数据集进行聚类,下图分为了两簇。
领取专属 10元无门槛券
私享最新 技术干货