00:00
啊,今天主要是三个部分啊,第一个部分就是一些机机器学习方面的基本的一个概念,呃然后就是还会分享一下两个具体的一个模型,一个是KN算法,机器应用,还有一个是学特殊模型,好呃,首先呢,我们来讲一下呃,机器学习在那个在那个大大概是处于一个怎样的位置,呃首先我们知道,我们知道就是圈的GPT什么,现在大家都在用嘛,然后它其实是属于人工智能的范畴,然后人工智能下面有一个概念叫做机器学习,然后机器学习下面有一个概念叫做深度学习,然后这三个,这三个概念的那个范围是不一样的,是人工智能这个概念会包含这个机器学习这个概念,然后机器学习这个概念会包含这个深度学习这个概念,深度学习其实就是那个,也就是说机器学习里面的模型,其实深度神经网络这样的一个模型,然后。
01:00
时候就是呃,就是就叫做深度学习,然后我们我们可以举一些日常生活中的一些例子,哪些是去学习的,典型的一个就是垃圾邮件的过滤,就是它其实就是一个机器学习的一个很很早也很也很那个经典的一个应用嘛,然后机器学习主要有三个要素啊,第一个就是数据,呃数据这个大家都很理解,就是呃,当然它不不不一定是那种那个结构化的数据,它也可能是图片,也可能是视频,这种都是属于数据。然后还有一个就是模型,模型的话我写一下啊,模型的话就相当于是要寻找Y和X之间的关系,那么它呃,我们我们简单来说就是Y和X之间的关系是一个F,那么那么我们就是要寻找这样子一个F,就是也就是说X和Y之间的规律,那么就是这个东西就叫做模型,然后算法的话就是求解这个模型,就是对这个模型进行一个求解,那么就是说是一个呃,通常来说是一个最优化的,最优化的问题,然后机机器学习的核心技术的话,呃,主要是这么几个,呃,一个是分类,一个是聚类,一个是异常检测,还有一个就是回归,回归这个大家在那个之前老师上的那个商务统计学课上可能已经接触过了啊,这个我就呃也不不详细。
02:34
可以阐述了,呃,就是我我我想讲的是这些就核心技术可能有他们各自的应用,就比如说是分类的话,它可能就应用在这种,比如说是用户画像这上面,然后像聚类的话,它可能是一种市场细分,然后异常识别的,异常检测的话是风险识别,然后违规的话,他可能是用于一些价格的预测等等,诶那我这里想打断一下,就是因为我们有一个任务是写一个行业画像嘛,就是这那这个是和他的分类,这个和用户画像这个有点点类类似嘛,呃,对的,行业画像的话,我的理解就是就是什么呢?就是呃,再是也不是同一个东西,我觉得它他的那个行业画像指的是我们已经确定了那个行业,然后对于这个行业它是有怎样的一个特征,然后而但这个用户画像呢,就是说是那个可能把用户划分成不同的几几类,那个就是说据说是A类用户,B类用户,C类用户,那么。
03:34
你要你任何一个用户,你要把这个用户放进某一类里面,我觉得还稍微有点点不远,好的好的,那么接下来我们再看下一页,好,那么就是那么机器学习它有一个基本的一个流程,就是呃,它可能是怎样的去,比如说是通过Python啊,或者是通过别的语言啊,它是什么样子去具体的操作的呢?他他首先的第一步就是要进行预处理,因为我们拿到的数据可能就是呃,不是那么的规整,也也也不是那么的好好处理,可能要做一些类似于数据清洗的一些工作,然后这个呢,也是好像比赛里面好像也有这个东西,然后然后的话就是模型学习,模型学习的话就是也就可能是继续学习,最最关键的部分就是那个,就是那个做一个模型出来,然后去那个可以做一些预测啊等等的东西,然后。
04:27
接下来是模型评估,就是咱们这个模型的准确率是怎么样的,就是有要比如说简单来说准确准确率是80%,90%还是100%啊,100%是不可能的啊对,然后就是这个模型的一个评估,这后面都会细讲,然后那个还有就是新样本预测,就是说就是说整个的一二三步做好了以后,我们最终的目的其实是要做到的是用这个模型去预测新的样本,也就是说给你一个,给你一个那个就是测试集,呃,就是数据集以外的那个样本,你要预测这个样本是有怎么样的的一个规律,那么就是一个新样本的预测,最后是要达到这么一个效果,嗯,然后的话,嗯,机器学习分为哪几类,我们简单来分的话,就是这么几类,就是说是监督学习,嗯,无监督学习和那个强化学习,那这个我会细讲一下,稍微稍微细讲一下,就说监督学习是什么意思呢?就是说是我们我们已经对某一某一些。
05:27
数据打过标签了,比如说是那个,我举个例子啊。理解理解,比如说我们给他打的标签是好人。就发卡了吧,这么快就发卡了,我借力呀,也没关系。建立。你是好人,给他,给他打一个标签是好人,然后比如说是凯里坏人,凯里外人,假如我给你举个例子啊,就是说比如说这个是一个我们已经打好标签的一个数据,然后我们做一个模型,做一个模型出来,做好模型出来的话,我们再去预测俏姐是好人还是坏人。
06:31
赵姐是好人还是坏人,就是我们模型做出来的一个预测,但是这三个人是好人,呃,好,好人还是坏人已经知道了,这个就是说是那个你打好标签了,这个就叫做监督学习,那么无监督学习是什么意思?就是说咱们有四个人理解建立凯里俏姐啊,咱们现在知道他们的一些特征,但是不知道他们是好人还是坏人,或者是什么人,或者是别的人,就我们要把,嗯,我们要把这四个人分成三类人,要分成两类人,就是说是它可能就是一个无监督学习,那么强化学习又是什么东西,强化学习的话,它就是一种有延迟奖励场景的最大化收益和最大化长期收益的一种学习方式,然后嗯,我我我通过这个例子呢,我顺便再讲一讲那个机器学习里面的基本名词,就说是样本,样本的话,比如说是嗯,比如说是那个降噪理解与这这就是一个。
07:31
样本了,建立南也是一个样本,凯里南。也是一个样本,这这三个就是三个样本,然后特征呢,你看这个。这个女。这个男这个男就是特征,然后样本空间呢,就是这整张表,迪姐女建立男凯里男这整张表,这整张表啊就是一下就是一个样本空间,然后标记呢,就是这个好人就是一个标记,好人就是一个标记,坏人也是一个标记,这就是标记分类呢,分类就是你就比如说分成好人和坏人这种,还有假设,假设这个比较比较难弄,就是假,这个假设其实和我们那个平时说的假设不是同一个东西,它就是说是Y等于,其实他其实是指的是Y=FX这个东西,然后学习过程呢,就是指建模的这个过程,然后泛化能力呢,就是这个低级好人建立好人凯里坏人这个判断的标准就是Y里FX,他能不能不能去准确的去判断这个翘级是好人还是坏人,这样子一个泛化的一个能力,然后然后我们。
08:47
在不能下雨啊。呃,然后的话,我我这一页呢,是这一页呢,其实是一个网站上拷得来的那个关于那个machine learning, 它的那个就是三个分类,它的一些应用的那个,一些应用的那个场景,就是说是unsvi learning就是呃无监督学习,Supervi learning就是监督学习,然后reinforcement learning就是强化学习,然后像那个无监督学习的话,它里面又分成两类,一个是呃分类,一个是那个降维,然后分类的话里面可能会会涉及到的是这个recommend recommend就推荐系统,就像我们平时看那个那个那个淘宝上给我们推荐的商品和targeted marketing这个就是那个。
09:33
就那个市场营销方面的东西啊,Customegment是市场细分,然后这里的话就是还有一个降维,降维的话就是big data visualization, 还有structureal discovery feature, 这个我这个单词我也读不来,然后还有其实这边这边的话是一个supervisise learning supervisise learning就是监督学习,它主要是一个aggresion,就是那个resion是回归,回归对,然后它它它都是一些预测性的东西,就是说是population courseion estimate life expectancy, 然后那个market foring, 那个weather foring advertising popularity, 所以我们其实我觉得我们这次的题目很多还是在这个回归上面,就它应该是属于这个market for costing, 这个对对对,就我觉得我觉得就是这次我们的比赛的那个用的模型主要还是回归,但是回归的话,它有很多种类,像决策数也可以做回归,像那个线性回归也是一种回归,就是到时候我们再看,到时候我会第一点讲,然classification的话就是分类,它可能就是customer attention啊。
10:34
一些应用,反正就是像那个我们那个行业画像的话,是不是属于分类里面的,我觉得有点像,我觉得有点像,我觉得我觉得我觉得有点像。然后那个那个那个那个,然后那个就是那个像read bos learning, 就是强化学习,他的是real timeition, 就是那个game AI skill acquisation learning tasks, 还有什么robot navigation, 就是感觉比较高大上的一些东西,然后好,我继续啊,这和机器人有关系,嗯,强化学习跟这种机器人啊,这种那种游戏的AI Di IO会判断感觉感觉会更有关系一点。然后我们再来看一下那个,就是像那个分类问题,回归问题之类问题,加偶问题,它对应的一些呃应用场景就是这个,像分类问题,就垃圾邮件识别,图像内容识别,嗯,那个文本情感分析,然后像回归问题的话,它是那个,比如说是要呃某个电影的票房价值,某个城市的房价的具体值什么的,像聚类问题的话,可能是相似用户的挖掘社区的一个发现,然后像那个新闻的一个聚类,然后像那个降维问题的话。
11:52
这个可能跟他们有一点点不同,他可能就是把高维的数据用低维的数据进行表达,是一个数据映射,跟这个跟其他的几种好像是稍微有点想要稍微有点区别,然后呃,然后的话,我想讲一下的是机器学习中模型的评估和选择,那么呃,机器学习它分了一个是训练级和一个测试,训练级的话,你可以理解为我们前面的那个,呃,理解女好呃好人,然后建立男好人还里男坏人,这种就是已知的。
12:29
呃,但是但是有个问题啊,但是我们训练好的那个模型,我们怎么知道这个模型是有效的还是无效的呢?对吧,那么我们可能就是,那就那要讲到那个怎么去找测试集了,就是说比如说我们已我们已知跳姐是个好人,那么我就看我们这个训练出来的,那个训练出来的这个模型,呃,那个反映出来跳级是好人还是坏人,如果好人的话,它就是有效的,坏人的话它就是无效的,那么也就是说这我这个简单的说法啊,但其实的话就是想讲的是训练级和测试级的这样一个概念,至于训练级和测试级他怎么去获得,我后面的话还会再讲,然后他就是有一个,呃,对于那个模型的评估,他可能会涉及到的一些概念是经验误差,经验误差就是模型在训练机上的误差,就是说是这个模型。
13:15
呃,这个模型就说是Y=X组,画一下画一下这个是对这已经是这个这个这这比如说是训练机,对吧,训练机。训练级对吧,然后它训练出来的一个模型,比如说是这样子,长这样子,那么那么也就是说是模型在训练机上的误差,还是说这个经验误差是什么呢?就是这个误差,这个误差这个误差这个误差,那我就是这是他就随便画了,应该再当中一点这个误差,这些就是那个,这个就是那个经验过拟合是什么意思?过拟合的话,就是说它可能拟合的一个,呃,它可能就是一条,它可能就四个四个边,它可能拟合出来的其实是条直线,但是你过拟合的,你可以把它拟合成一条过这个四个点的一个曲线,但是它这条曲线的一个方程,它。
14:11
弄出来以后,他可能是不能去预测下一个点,他到底是怎样的一个预测的不是很好,但是他对训练值上的那个那个那个那个那个这些点都拟合的很好,就是叫过拟合,因为叫over,然后还有一个偏差,偏差就是我刚才说的那个那个就是说是那个。那个就是就是这个,这个建用车差不多就是说就是这个,就是这个模型拟合的偏差程度,还有一个就是方差,方差就是模型的平稳程度,然后下面有一个表格,我们大家看一下,越是简单的模型,它的偏差可能越大,但是方差可能越小,它是个嵌拟合的模型,然后越是复杂的模型,它可能偏差越小,方差越大,它是个过拟合的模型,好,那就呃,对,就是这样子,然后嗯,怎么来怎么来怎么来,具体的看看,咱们可以具体的看看这些回归问题和分类问题,它里面涉及到的一些,呃,误差的一些概念,就是说是比如说平均绝对误差,平均绝对误差又称为平均绝对离差,就是所有标签值回归,回归预测值的偏差的绝对值的平均,然后,然后绝对百分比误差的话,它是一个,其实一个比例,就是绝对误差相对真实值的比例,它是一个比例,呃,军方误差的话,就是军方误差,其实就是跟方差是差。
15:31
差不多,嗯,对,就是相对于平均误差而言,均方误差是求所有标签之于回归模型预测值的偏差的平方的平均,有点像方差,然后军方跟误差的话就是标准误,也称为标准误差,就是在军方误差的基础上开平方运算。对,然后还不好意思,就是这个,因为有一点学术啊,就是这些误差的话,它都代表什么呢?就说这哪一些误差越大,它就说明这个模型越不不正确,或者是说呃,反正就是误差都是零最好的,但是不可能的对吧,就是那如那他就之间相差也不会很大是么?呃,对,它可能应用的范围是应用的,应用的就选择不同的这个场景里面运用的这个是不一样的啊,就不同的场景可能会选择不同的误差去判断这个模型的正确是对对对对对都可能遇到,然后那个RR平方决定系数,还有一个对,它就是有点有点像是回归模,其实这些的话,其实这些的话在那个就那个统计学里面的话,应该是有涉及到一些那么分流问题,它就会跟这个那个这个普通的那个回归问题,它的偏差不一样,它误差不一样,因为它的误差不是那个连续的,它可能是离散的,那么他可能就会考虑它的错误率,精确率,查准率,查询率,也就是说它分类错误的样本呢,存失比例,关于正确样本存的比例,然后就是那种。
16:49
就是说是那个正确的占正确的平图,正确的作品呢,就是这样子的一个,我我可以得给大家看一下啊,就是说是那个这个这个我有个图的,你等会儿等我一下啊,好没事。
17:06
对,就是这个叫做就是那个,那这个英文大家都看得懂,分类啊,它它有S,就是说是正的,你判断为positive,就是TP这样子的一个东西,然后negative你判断成为positive,就是FP,那然后是那个,然后啊,不对,应该是positive判断为positive是TP positive判断为嗯,啊不是,呃,对negative判断为positive,是FP,然后还有一个FN和TN,就是反正就是正确错误,正确错误这四种组合,然后它它会有一个accuracy和一个recciation,还有一个recall,然后这个那那这这都不用理它,它的其实精确程度是用这个指值F1SCORE去判断的啊不是精神就是有靠和那个positionci性的平均,嗯,对,也就是说这两个不可能都,这两个不可能都很大,都很小,它它是有一个此消彼长的那个那个那个叫什么,来个静止的re个positioncision,所以说它这个F1SCORE就是呃,Recall分之1+preciion分之1是这2,它是一个条分。
18:06
平均,然后它这个东西是用来验,用来那个用来那个衡量这个模型的那个那个优劣程度的,对,然后还有个ROC曲线和AUC,然后对我们继续啊。嗯,对,然后我我刚刚讲到的那个测试级,测试级的话有三种方法可以得到我们的测试级,在不同的模型里面可能也是啊不一样的,就是说第一种,诶,你们现在看见吗?可以的可以的可以的吧,呃,第一种是流出法,流出法的话就是你比如说有100个样本。你就用99个去训,呃,不不九九十个去训练,然后你比如用10个去验证你这个训练出来的那个模型,它那个效果怎么样,就是就自己藏了一些嘛,藏了一些先不去作为训练,这就是流出法,就很很那个直白的嘛,然后交叉验证法,它就crossli,它是一种就是那种一种比流住法稍微科学一点的一种抽样的一种方法,然后就是去也是去可以找到一个测试自的数据集,还有自助法叫什么boottrap,然后就是那个,这个话好像有点复杂,然后大大家到时候可以网上看一下,然后呃,刚刚我没有讲到欠你盒刚刚好的过你盒,呃就是说是在模型里面,我们我们我们要找的是这种刚刚好的模型,欠拟合的,就是说这个模型呢,就是和那个数据集拟合的不是很好,然后过拟合的,他就是拟合的太好了,拟合的太好,以至于他没有去预测新的那个那个那个那个那个数据的能力了,也就是说是说是这里面的两句话,我。
19:54
我觉得表达的很好,表达力好的模型可以较好的针对训练集中的数据的规律和模式进行学习,就表复杂度低的模型呢,就是方差较小,不容易过拟和有较好的泛化表达,就如说如果既满足1又满足2的这种这个好的模型,然后就是属于这种刚刚好啊,这里我也分享一下这个过拟合,因为我也看了一下,之前不是我分享的第一篇文章是什么BOO斯特那个模型,嗯,啊,推测那个销售,呃销售额,然后呢,就是他和后来刘老师推荐的那个那BGMGPM那个来对比的话,好像是说前面那个算法,呃,他会占用很多的内存啊,反正他是什么会让机器反正用计算的量很大,就计算量比较大是吧,时间复杂的比较,对对对,然后就找到了过拟盒,过拟盒的话,其实它在计算的过程中,因为这个模型过于复杂,所以他对在占用什么内存啊,或者是说这个呃,在计算的时候也会用到特别多的资源,所以在这个情况下好像也不太好,所以后来就就来来去变。
20:54
哦,明白明白啊,这个其实是,其实的话我觉得有点关系,但是呃,好像也不是一个概念,对对对,不是一个概念,就是有点关系,但是应该是相关的,但是不是一个概念,好我记续啊,然后呃,我们就接下来的话,接下来的时间我想就是分享一下那两个算法,就是一个是KNN算法,就是给大家找点感觉,就是机器学习的算法大概是一个怎么样的想法,然后它是一个就是怎么去弄的,然后精灵算法的话,就是机器学习当中最简单的一个算法,嗯,它叫做kk nearest neighborhood, 然后是一种很基本和朴实的机器学习算法,KN算法在我们日常生活中也有类似的应用,比如我们判断一个人的人品,这个好人坏人往,我只需要观察他最密切的几个人的人品的好坏,就可以得到结果了,就是KN的思想啊,但基没也没那么简单了,KN算法既可以做分类,也可以做回归啊。
21:49
然后继续呃,然后的话,呃这句话呢,就是一句嗯,数学味道很重的话就是呃,从算法的角度来解决一个分类问题,我们的训练数据会被映射成NN维空间的样本点,这里的N就式特征维度,我们需要做的事情就是对呃N维样本点进行区类别区分,某些点归属的5个类别啊其实句废话,然后下下面那个例子,就比较比较的那个形象,就是说呃就是说它是一个就是KN算法的一个祖先,这是K0计算法的核心思想,就是下面的图,你你看得到吗?这图能看到,这里可以看到是三种豆子,对三种豆子,三种豆子的种类是未知的,如何判定它的,如果有3有有三种豆子吗?然后然后它的种类是是如果判定它的那个种类嘛,那么就是1968年,Coco和哈提出了最临近算法思路,就是说嗯,这个豆子离离那个哪种。
22:50
豆最近,然后就是就认为豆子与该豆是同一种类,但是这句话呢,其实也很有点抽象,我们继续看这里尼算法呢,有一个,它有一个定义,为了判定样本的类别,以全部训练样本作为代表点,去计算未知样本和所有训练样本的距离,以最临近者作为决策样本的唯一依据,诶,对,也就是说是他怎么弄的呢?他就是说你已经知道了那个理解是好人,然后那个这力是好人,他就是坏人,那么怎么判断那个俏姐是好人坏人,他离,那么我们就就看他那个离谁最近,比如说他离理解最近,那么他就是个好人,他离我最近,他就是个坏人,就看离他谁最近,就是呃,他离谁,他的距离离谁最近,他就是和谁是同一类的,啊,就是这么一个思想,但是呢,这个这个思想呢,有个问题,就是他他对噪声其实是非常敏感的。
23:49
呃,什么叫噪声呢?就是说是一些呃可能是嗯脏数据嘛,就是说他他他会使得呃有一些在某些情况下,他无法判断这个人是好人还是坏人,比如说俏姐她他离我的距离和离理解的距离是一样近的,那么他就很难判断出来,那么我们我们我们就用用我们就为了改进这样子的一个算法,呃为了改进这样子的一个算法的话,就嗯就就就发明这个K近的算法,就是选择一个未知样本,一定范围数量内的K个样本,那么该K各样本的大多数是属于某某一种类型,那么未知样本是属于该类型。近邻算法是最近离算法的一个延伸,也如说最近离算法其实是还还不太科学,就是近离算,K近离算法的话,是比那个那个最近离算法要稍微科学一点,也就是说根据K近离算法,离绿点最近的三个点都有两个红点,一个蓝点,那么也就是说是红点的样本数多于蓝点的样本数量,那么绿点就会被判定为是一个红点,那么我再举刚才那个例子。
24:49
啊,比如说啊,嗯,比如说K近离算法,我们直接选嗯,K=3,那么那么就是说就是说翘解翘K=3的话,就是说K就等于整个样本字嘛,那么俏姐就是要判断他和那个,就是就我等于我们三个投票嘛,但是你们有两个好人嘛,我一个坏人嘛,那么也就是说俏姐是好人嘛,就是这个意思。
25:12
然后这里呢,就是一个K近零算法的工作原理,就是说是存在一个数据样本集,也就是样训练集嘛,这是因训练集中都每个都打好标签了嘛,就是说好人好人坏人这三个,我们我们三个人是打好标签的,只知道样本中的每个数据与那个左手分类的对应关系,然后输入没有标签的数据,新数据就是那个翘键嘛,它没有标签嘛,像新数据的每个特征与样本中的特征进行比较,就是说找找我们现在距离嘛,然后算法提取样本中特征最相似最近邻的分类标嘛,然后就说是就是我刚才说的那些,一般来说只选择样本数据,其中前K个相似的数据一般不大于K,然后选择K中字字数最多的一个分类,就是说我刚说你们有两个好人嘛,那么就说这这是次数最数分类则我先分类的依据嘛,他就是好人嘛,对吧?那么参数选择的话,如果选择一个最佳的K数据,一般情况下如果较大的可能减少造成的影响,那么就是说我前面说的降噪嘛,就是说为什么是K近邻,不是一近邻呢,不是最近邻呢,就是说它说K大一点的话,它的噪噪声对它的影响就越小嘛,然后但会使类别之间的界限变得。
26:12
我可这也是没办法的,一个较好的K可以通过各种器方式技术的操快速优化来获取,然后然后噪声和非相关性特征的存在或特征尺度,它们的重要性不一致,会是可以进行算法的准确性严重降低啊这个你们你们也不用看这个这个这个这个这个这个这个这个这个没什么话筒,然后在二元分类的问题中,K要选基数,为什么呢?因为投票的话可能出现股票的情况,在此问题下选取最加经验是K的方法是自助化,就是bootra boostrap的方法,好那么就是说是那个这个K近零算法的那个,这个东西就是主要的内容都是,呃,都是讲完了的,那么我们下面呢,就看一个例子。那么就什么例子呢?这个例子呢,就是说是跟我前面说的那个,前面说那个例子呢,稍微有点点不一样,但是呢,它其实也是一个比较简单的例子,就说以电影作为例子,电影题材可以分为爱情片和动作片,那么爱情片有哪些特征,动作片有哪些特征呢?也就是说给电影一部电影,你怎么去说它是爱情片还是动作片呢?我们是这里假定电影分为爱情片和动作片两类,就没有第三类的,呃,没有什么那么恐怖片啊什种之类的,如果一部电影中接吻镜头很多,打斗镜头较少,就是爱情片,反之就是动作片,那么这里给出了就是已知的一些与他的一个分类,然后他在那个里面就里面就把它那个画成了二维坐标,就是可视化了嘛,可视化了,我们要看一个新的,它显然就是属于这个嘛,就属于这个爱情片嘛,然后那么那么那么他其实就是说是举了一个讲样的一个KN手法例子,比如说K取K取3 K取K取4,他都是他,他都是可以说是K4K取到5,我我。
28:00
它都是一个和结结果都是一致的,都是爱情片,好然后接下来的话,嗯,就是讲一下那个咱们那个决策树模型,嗯,决策树模型的核心思想呢,就是基于各种已知情况特征取值的基础是吧,构建决策树树形的结构,角策结构来分析,分析的一种方式是常用的那个supervi的那个一个那个分类方法,就是说你已经知道这个,已经知道我们那个就说是,嗯,训练集里面的点都是它是怎么怎么做决策的,然后我们去看一下最最终的决策结果是什么,然我们去看一下怎么去构建这样一个分类算法,然后我们举个例子,比如说我们要买一买一买一个那个你那个呃。买一条,买一条裤子。假设这个材料是牛仔裤,呃,如果不是牛仔裤我们就不买,然后我们再看这个裤型,如果是修身的我们就不买,宽松的就不买,然后我们再看尺寸,如果是呃,那个有的话就买,没有的话就不买,然后再再看价格,价格的话就是小于400块钱去买,大于400块钱就钱太多了,就不买,然后然后我们可以看看,看到这里面有几种颜色,一种的话就是像这种那个橘黄色的,像就橘黄色的,就是内部节点,像这个,嗯,像这个,像这个蓝色就是分支,然后这个蓝色的这个这个球球形的就是业界点,然后它学习过程其实是通过训练样本的分析,呃样呃,训练样本的分析来确定划分属性,划分属性的话就是这些就是什么库型啊,尺寸啊,价钱啊,也就是说及内部节点对应的就是预测结果呢,就是将测试视例从根节点开始。
29:48
是沿着划分属性序列构成的判定测试序列下行制造业绩里啥意思呢?就是说给另一条裤子,你买还是不买,我们已经知道了,那么我们就要去找,我们要去找的是什么呢?就去找的就是这个裤型尺寸和价钱,这种是我们选择出来的这个那个叫什么划分属性以及这个标准对什么对,这个就是一个决策数模型的一个基本思想,然后至于它决策数模型的具体算法呢,我就不说了,因为为什么呢?它涉及到要算那个信息商的一个问题,那这个问题是一个,就是一个稍微有一点点复杂的数学问题,它涉及到呃那个,呃,那个是那个那个商用的一个计算的一个问题,啊,其实也不复杂,到时候大家可以看一下相关的一些资料,然后的话是,然后我们想讲一下的是角测殊模型,跟我们这次参加比赛的时候,刘老师推荐的那个,嗯,来GBM有什么关系,因为决策树模型它其实是一个很古老的一个算,它是一个concept learning system是最早的角色system算,然后。
30:48
后嗯,那个接下来他进化就进化成了ID3成为主流的角色的算法,利用信息增益进行特征选择和数的生长,就是这个信息增益呢,就是我前面说的那个信息商的那个东西,嗯,然后这个这个东西呢,到时候大家看课后看一下下,然后那个还有一个就是C4.5的话是ID3的改进,基于信息增益率呢,选择自行数据也是一个,也是一个,就是要要要那个计算的,然后cart呢,是一该用于分类和回归的二叉数决策数,二叉角数,就是两个分叉,就两个分叉防范式,然后random forest就是随机森林,就把决策树并行成的组合算法,然后再进一步的话,就来到了GP DG XG boost和XGBM,还有呃cast boost就是boosting系列的模型,可用于那个数模型做那个串行集成,然后呃,然后的话,我在那个我再总结一下,今天主要讲的内容就是,呃,今天主要讲的是。
31:48
嗯,三块点,一块就是机器学习的一些基础的一些知识,就是呃,说的好那个一点就是稍微给大家扫一扫盲,就是机器学习是什么,然后机器学习可能会遇到的一些怎样的名词和专业用语,然后还有就是嗯,给大家找点感觉,听算法及行应用,然后就是进一步的话,就是我们看一下角色书模型,它是说什么东西,嗯,好,今天的那个分享基本上就是到这里。
我来说两句