3637字▕ 9图▕ 预计阅读21分钟
Rattle包基于R语言开发的强大数据挖掘工具,图形交互式可视化界面,如同SPSS Molder一样,可以让很多R初学者或R语言薄弱的同学完成数据挖掘工作。Rattle提供了数据清洗、简单统计检验、数据建模分析和模型评估。
数据建模包括:聚类、关联规则、决策树、随机森林、支持向量机、回归、神经网络和生存分析。
模型评估包括:混淆矩阵、风险图、Cost curve、Roc曲线、Hand图、Prv Ob图、Score等
有同学后台留言怎么安装Rattle? 怎么启动?
安装Rattle和其他包一样,利用命令安装如下所示,也可以在Rstudio中通过Packages下的install安装,由于Rattle基于很多R包,耐心等待。
前面分别更新了Rattle包简介、数据准备、简单统计分析,可点击以下链接查看,今天主要学习Rattle数据转换功能。
1
Rattle启动
启动Rattle之前,检查是否安装了cairoDevice和RGtk2两个packages,如果安装了先载入Rattle,然后启动即可,如下所示:
如果未安装cairoDevice和RGtk2,安装后启动即可,如下所示:
2
数据变换
Rattle数据变化提供了4种数据变换和处理功能,分别为:Rescale(重新定义范围)、Impute(填充缺失值)、Recode(数据类型转换)、Cleanup(删除),每种功能下又有若干参数和方法。
3
Rescale(重新定义范围)
Rescale(重新定义范围)提供了Normalize(归一化)、Order(排序)两种大的处理方式。
Normalize(归一化)
Recenter
Scale [0-1]
Median/MAD
Natural Log
Log 10
Marrix
Order(排序)
Rank
Interval
Number of groups
4
Impute(填充缺失值)
Impute(填充缺失值)下有5种方式,分别为:Zero/Missing、Mean、Median、Mode和Constant。
5
Recode(数据类型转换)
Recode(数据类型转换)下面有定量变量离散化、分类变量(名义变量)指标化、分类变量(名义变量)合并、分类变量(名义变量)相互转换:Binning(离散化)有Quantiles、KMeans、Equal Width三种方式,默认Number为4。分类变量(名义变量)指标化Indicator Variable、分类变量(名义变量)合并Join Categorics、分类变量(名义变量)相互转换As Categoric和As Numeric。
6
Cleanup(删除)
Cleanup(删除)下有4个参数,分别为:Delete Ignored(忽略移除变量)、Delete Selected(删除已选择变量)、Delete Missing(删除缺失变量)、Delete Obs with Missing(删除有缺失值的行变量)。
7
Rattle数据转换总结
将Rattle数据转换整理如下:
参考文献:
1.https://rattle.togaware.com/
2.https://bit.ly/rattle_data_mining
3.https://bit.ly/essentials_data_science
—END—
领取专属 10元无门槛券
私享最新 技术干货