数据挖掘是个什么东西?我也不是太明白,不懂的就不要看了,这次是我再学习的笔记。
数据挖掘模型的训练过程分为“有指导”和“无指导”的
通常会将数据分为“训练样本”和“测试样本”“验证样本”
拿不到总体数据划分数据为几部分,建设模型,健壮性,因为我们拿到的样本本身对数据总体的数值特征的表现情况我们无法得知。
企业视图,企业级别。
可变、固定指的是各个字段值的长度
针对样本的行操作
区分distinct——>查重
类型与数据源编辑界面内容基本一致,之所以另起一个节点,不在数据源上操作缺失值。同理,过滤节点。
导出——>派生新字段
匿名化——>隐藏真实值
重新分类——>类似与派生,专于分类型
时间区间——>派生字段导出字段的效果,有关时间的
设为标志——>将某变量值设为多个变量名,类似于SPSS中的多项选择,调整为标志型变量
重新结构化——>同上,但值非只有TF或01
历史——>字段某个值中向上的值,数量取决于选择的偏移量
自动数据准备
模型对比
如下图。各种模型可以建立链接,用“分析”节点查看结果。三个模型的预测分别与实际情况对比,三个模型相互对比看一致性,最后三个模型一致的结果与真实情况对比。
数据质量与样本管理
问题:选择与舍弃的记录数量总数不等于数据总量;试用主键追加排序,做等差,寻差值不正常。这可能是由于有缺失值、空值、异常值导致的。
回归:
GenLin:对数据把握不好不知用那种模型的情况下
连接函数:对因变量做何种映射
决策树
C&R和CHAID可以启动互动会话,逐步生成树,且两者均可生成分类树和回归树。
神经网络是模仿生物神经传导过程而建立的数学模型,一般应用与音频图文等复杂对象,不用于结构化数据。
有指导的神经网络原理(PB)
随机给权重赋值
按照赋值计算生成的输出
比对计算生成的输出和已知输出之间的差别
调整权重(全局调整、局部调整)
重复2~4,直至误差可接受
内核算法:多层感知器函数(MLP)全局调整,训练出的模型复杂度高,精度好;径向基函数(RBF)局部函数。
神经网络节点对输入输出无要求,可以实现多输出。改变变量相关性会影响结果准确度,模型复杂度。注意输出的类型也会影响到精确度。数据量。
数据样本的独立性
数据样本的容量
输入变量的测量级别;
SVM思想
聚类:
K-Means,无法判断离群值,全覆盖的
两步聚类:灵活地处理各种变量类型,K值由计算过程获得,判断离群值
(1)预分类
(2)判断类别是否可以合并
Kohonen:K-Means+神经网络
上图kohonen聚类,最多会出现6个输出节点
聚类的结果可以通过“表”查看聚类情况,通过散点图等看不同的变量在不同类中的分布情况,低维可能看起来并不明显,可以放到高维图里看比如2Dà3D。
记录点太少,可能过拟合。
项目策划:
策划项目范围基准(需求翻译、追踪、工作包/辞典分解)、成本基准、进度基准、质量基准;
考查数据逻辑、质量;
根据交付要求,策划建模过程,选择建模技术;
评估模型成本收益;
业务、技术、用户一起评估业务匹配度;
确定最终模型,进入交付成果组;
实现项目约定的其他交付成果;
交付项目;
收尾。
领取专属 10元无门槛券
私享最新 技术干货