学习机器学习,必然要学习数据的分析和模型的训练。本篇通过加载 python 中的鸢尾花数据进行可视化,并通过 sklearn 中的逻辑回归模型来 train 和 predict 数据。
加载 python 的类库
加载鸢尾花的数据
输出样本个数、特征名称、以及分类类型
为了方便最后验证模型的结果,我们取每组数据的第一个作为最后的测试样本集
结果是酱紫的:
可视化
为了可视化,我们把数组格式的数据转为 DataFrame,可视化更清晰明了
首先,通过箱型图来看一下每个特征值的大概区间以及是否有异常值
通过柱状图来看一下各个特征值的分布情况
通过散点矩阵来看一下相关性
通过不同颜色,不同大小的散点图来大概看一下样本的分布情况
4个特征向量在二维上的表现能力有限,我们通过三维的散点图来观测一下
训练数据
使用逻辑回归模型对 train sample 进行训练
结果会给出训练得到的参数
还记得最初留的3个 test 数据集吗?我们用训练好的模型对测试数据进行预测,看结果是否和我们预期的一样
结果当然是和我们预期的一样:
领取专属 10元无门槛券
私享最新 技术干货