欢迎大家跟我一起步入机器学习之路。在学习之前,我们首先是不是应该知道什么是机器学习呢?
在 1998 年,「Tom Mitchell」对机器学习给出了如下的定义:
A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
我一猜你们就跳过英文直接往下读了,那我为什么还要把这段英文写上去呢?因为感觉这段英文定义特别有趣,你读出来就像一段绕口令似的。我猜这位大牛当时定义的时候肯定是为了押韵才这么写的(手动狗头)。
总而言之,用汉语概括来说,机器学习就是通过一大堆数据集训练一个电脑程序让他能够去更加准确地预测出下一次的结果。
机器学习算法分为两大类,监督学习(Supervised learning)和无监督学习(Unsupervised learning)。
监督学习
目的:在监督学习中,我们会知道一些数据集(输入),并且知道他们的答案(输出),其中输入输出的关系就是监督学习想要得到的结果。
该图中 h 就是监督学习想要得到的结果。
监督学习又分为两类,「回归问题」和「分类问题」。那么「回归问题」是什么呢?举个例子来说,现在我想预测一下房价,已经知道了一些房子的大小和价格,通过这些数据来拟合一个函数,然后把我家房子的大小输入到这个函数中,这个过程就是解决「回归问题」的过程。
「分类问题」呢?我现在看一下我的邮箱,里面有垃圾邮件和非垃圾邮件(这就是数据集),通过这些数据,我来拟合一个函数,判断我下一次收到的邮件是否为垃圾邮件。判断一封邮件是否为垃圾邮件的过程就是解决「分类问题」的过程。
「回归问题」与「分类问题」的区别就在于「回归问题」是预测一个结果,「分类问题」是把一个输入划分到已知的类别中。
无监督学习
目的:在一堆数据集中,通过他们内在的关系将他们划分成几类。
还记得前面提到过的监督学习吗?在监督学习中,你一开始就知道一些数据和他们的结果,但是不同于监督学习,无监督学习开始只知道这些数据,并不知道他们会得出什么样的结果。
举个例子,每天都会有一些新闻,这些新闻来自各大平台(就像有头条的,新华社的,微博的,公众号的),我们把这些新闻全部都收集起来,通过无监督学习根据他们所描述的新闻内容进行分类,讲述同样一条新闻全部划为一类。就像一条新闻,某个帅哥今天写了人生中第一篇公众号文章(你猜那个人是谁),这个新闻被多家媒体报道,经过无监督学习的分类之后,来自各大媒体报道有关这个内容的新闻全部划为为一类。
好啦,今天就到这里啦,下次见。