这学期选了实验室指导教授的 Data Mining 课程,课上教授推荐使用 Rapid Miner 这个工具来做 projects,这样可以避免大量的编程工作。
安装地址:https://my.rapidminer.com/nexus/account/index.html#downloads 安装后 ,得注册账号,然后去邮箱中确认,才能开始使用。
左边红色标识的部分主要是一些数据存储的地方;左下角黄色标识的部分是一些操作器,找到需要的操作器后,可以直接拖放在中间的“Process”区域;中间的区域是处理区域,可以查看自己搭建的模型,以及运行的一些结果;右上角灰色标识的区域是展示参数信息的地方;右下角是帮助窗口,如果不知道怎么使用选择的操作器,可以点击操作器,然后在该窗口就会展示出帮助信息。
主要界面
点击界面上方的“Extensions”,再点击“Top Downloads”,可以看到很多的扩展应用。刚开始的时候会有一小段更新加载的时间。
下面就是扩展应用,有“Web Processing”,“Text Processing”等等,这些后面的课程中都会使用到。
热门扩展应用
双击任意数据集,会出现如下窗口。“Data”一栏显示的就是原始的数据;“Statistics”一栏显示的是数据的一些统计。“Charts”和“Advanced Charts”这两栏显示的数据的一些图表,用于可视化。
在 “Operators” 下的搜索框中可以搜索 “Split Data” 这个操作器,然后将其拖入右边的操作栏中。然后点击该操作器,在最右边的 “Parameters” 一栏中会出现一些信息。点击 “Edit Enumeration”,再点击两次 “Add Entry”,第一行中输入 0.7,第二行输入 0.3 。表示 70% 的数据用于训练模型,30% 的数据用于测试模型。最后还需要注意一下,操作器之间的连线。
在 “Operators” 下的搜索框中可以搜索 “Cross Validation” 这个操作器,然后将其拖入右边的操作栏中。双击该操作器,会出现内部嵌套的处理操作,分为 “Training” 和 “Testing” 这两部分。主要在 “Training” 中添加模型训练,“Testing” 中添加 “Apply Model” 用于测试模型。这里也要注意连线的信息。