边听边看
本章py文件的链接如下,使用的是笔者自己整理的数据集,下载后使用PythonIDLE打开使用:链接:https://pan.baidu.com/s/1RKa57TNTw3xS8D2c_hH-hw
密码:56d8;
下方链接为笔者自己整理的数据,可以按照书中代码对其处理:链接:https://pan.baidu.com/s/1ThHIC8JPhiFY_CrqfUPvdw密码:yzre;
原始 NBA数据获取地址如下:
https://www.basketball-reference.com/leagues/NBA_2014_games.html;
点击share&more转换为csv格式复制即可,但每次只能获取一个月的数据,整个赛季的数据需要自己把多个月的数据整合;
下方为网友处理后版本NBA数据,可以直接达到书中38页的输出效果:
链接:https://pan.baidu.com/s/1ewB3FdBx8aqb5QvEY4Ta8A密码:7yek;
在3.1.4提取新特征的内容中,如果按照书本上的代码,是无法得到35页的表格的,书中代码如下:
按书中代码,得到的结果是:
故此需要添加两行代码:
决策树是一种有监督的机器学习算法,退出准则是决策树的一个重要特性;
sklearn.preprocessing.LabelEncoder的用法:
Numpy.vstack的用法:函数原型:vstack(tup) ,参数tup可以是元组,列表,或者numpy数组,返回结果为numpy的数组;
n_values_属性:取每个特征的最大特征值+1,具体到代码里,[[0, 0, 3], [1, 1, 0], [0, 2,1],[1, 0, 2]]是我们的样本矩阵,[0, 0, 3]是一个样本,每个样本有三维,即三类特征。对于第一维或者说第一类特征,有0,1两种取值;第二类特征,有0,1,2两类特征;第三类特征,有0,1,2,3三类特征,所以:
enc.n_values_ : [2 3 4]
feature_indices_:根据说明,明显可以看出其是对n_values的一个累加,首位为0;0,(0+2),(0+2+3),(0+2+3+4)=0, 2, 5, 9;
以下为代码截图:
领取专属 10元无门槛券
私享最新 技术干货