首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据分享|WEKA信贷违约预测报告:用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归|附代码数据

    操作步骤为预处理界面勾选两属性,点击Remove。...和熵模型的度量方式比,基尼系数对应的误差有多大呢?对于二类分类,基尼系数和熵之半的曲线如下: 基尼系数和熵之半的曲线非常接近,因此,基尼系数可以做为熵模型的一个近似替代。...对生成的决策树做预测的时候,假如测试集里的样本A落到了某个叶子节点,而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别。...CART算法缺点: (1) 无论ID3,C4.5,CART都是选择一个最优的特征做分类决策,但大多数,分类决策不是由某一个特征决定,而是一组特征。...ID3 weka操作 相同步骤,target名义变量设置,cost sensitive 设置,将假阳性错误的代价敏感度提高,选择ID3算法,结果如下,Recall 为75.2%,ROI 为1550000

    1.3K00

    数据分享|WEKA信贷违约预测报告:用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归

    操作步骤为预处理界面勾选两属性,点击Remove。...和熵模型的度量方式比,基尼系数对应的误差有多大呢?对于二类分类,基尼系数和熵之半的曲线如下: 基尼系数和熵之半的曲线非常接近,因此,基尼系数可以做为熵模型的一个近似替代。...对生成的决策树做预测的时候,假如测试集里的样本A落到了某个叶子节点,而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别。...CART算法缺点: (1) 无论ID3,C4.5,CART都是选择一个最优的特征做分类决策,但大多数,分类决策不是由某一个特征决定,而是一组特征。...ID3 weka操作 相同步骤,target名义变量设置,cost sensitive 设置,将假阳性错误的代价敏感度提高,选择ID3算法,结果如下,Recall 为75.2%,ROI 为1550000

    38701

    如何下载安装Weka机器学习工作平台

    安装Weka的一体化版本 Weka提供给Windows和Mac OS X一个一体化的安装版本。 此安装包括可用于预测建模的Weka平台以及运行Weka平台所需的Java版本。...Windows 在Windows上,一体化版本的Weka是一个自解压可执行文件。 你需要选择要32位版本或64位版本的安装包。如果你有新版本的Windows,则应选择64位版本。...下载包后,双击图标开始安装过程。 按照提示安装,Weka将被添加到你的程序菜单中。 点击鸟图标启动Weka。 Mac OS X 在OS X上,一体化版本的Weka被提供为磁盘镜像。...Windows Weka为Windows提供了一个不包含Java的版本。 你需要选择是否要32位版或64位版本的安装包。如果你有新版的Windows,则应选择64位版本。...下载包后,双击启动安装过程。按照提示安装,Weka将被添加到你的程序菜单中。 点击鸟图标启动Weka。 Mac OS X Weka只为OS X准备了一个下载版本。

    4K50

    拖拽式机器学习的爱与恨

    Weka 是有新西兰 Waikato 大学开发的数据挖掘软件。Weka 除了提供 Java API 之外,还提供 Weka Explorer 图形界面。...人们在 Weka Explorer 界面上通过鼠标操作就能很方便地加载数据、观察数据特点、训练、预测和效果评估。除了 Weka 免费软件之外,商业软件 Matlab 和 SASS 也提供了图形界面。...工程师在界面上组织资金的机器学习任务,可能对自己的机器学习任务有一个直观的认识:自己的机器学习任务进行到哪一步了;如果出错,在哪一步出错;出错步骤影响了哪些任务。...除了对机器学习算法的理解,机器学习使用最复杂的部分有两个部分:调特征和调参数。调特征的内容包括:要用哪些特征,要摒弃哪些特征,采用哪些特征预处理方法 (比如 scaling)。...但在拖拽式机器学习的组件加配置的方式中,我们只能在文档中记着不同的特征工程方案和参数,选择其中一个配置到拖拽式机器学习系统,运行几个小时得到评估指标,将评估指标记录到文档中;再选择下一组,重复上述步骤直到遍历完所有特征工程方案和参数

    1.8K60

    Weka机器学习平台的迷你课程

    这个迷你课程是面向哪些人的? 我们在开始前要先确认您是否来对了地方。下面的列表将提供一些关于本课程是为谁设计的基本原则。...第1课:下载并安装Weka 首先要做的就是在工作站上安装Weka软件。 Weka是免费的开源软件。...如果您的系统上尚未安装Java,则建议您下载并安装与Java捆绑的版本。 本课您的任务是访问Weka下载页面,下载并安装Weka到您的工作站上。...在不同的分类数据集上进行测试,比如那些有两个类别和多个类别的数据集。 第10课:回归算法之旅 分类算法是Weka的专长,但是其中的许多算法都可以用于回归。...以有差异的方式进行并产生不同预测结果的技术组合往往有更好的性能。 试用一下不同的分类和回归数据集。

    6.2K60

    机器学习系列(二)决策树(Decision Tree)

    决策树有三种结点:根节点:就是树的最顶端,最开始的那个节点;内部节点:就是树中间的那些节点;叶节点:就是树最底部的节点,也就是决策结果。节点之间存在父子关系。...二、决策树的构建过程 步骤1:将所有的数据看成是一个节点,进入步骤2; 步骤2:从所有的数据特征中挑选一个最优数据特征对节点进行分割,使得分割后的子集有一个在当前条件下最好的分类,进入步骤3; 步骤3:...生成若干孩子节点,对每一个孩子节点进行判断,如果满足停止分裂的条件,进入步骤4;否则,进入步骤2; 步骤4:设置该节点是子节点,其输出的结果为该节点数量占比最大的类别。...] #提取标签信息 if currentLabel not in labelCounts.keys(): #如果标签没有放入统计次数的字典,添加进去...八、实现方法 在构建决策树模型时,除了自己写代码外还可以采用「sklearn」的决策树包和「weka」数据挖掘平台。

    1.3K30

    mac系统下如何将weka导入Eclipse?

    折腾半天,总算把weka导入Eclipse,虽然网上教程很多,但是mac系统仅有几篇,但是发现都不好用,最后总算找到一篇好用的,整理出来供有需要的小伙伴参考: weka下载,就不多说了。...新手要注意的是,文件里面自带测试数据集,在安装的文件目录中,文件名data;目录中还有个weka-src.jar,这个就是我们接下来要捣鼓的,冰冻大象步骤如下: 解码weka-src.jar,mac下可以直接命令行来完成操作...在Eclipse下新建工程,命名为weka,在src下新建名为weka的包; 在包weka下(右键),Import-->File System-->选择path/src/main/java/weka,并全部导入...,Build Path-->Configure Build Path-->Librarie--> Add External JARs-->选择path/lib里的所有.jar文件;本来src里面的文件有很多叉叉...,经过这一步,叉叉都消失了,但还是有很多感叹号: ?

    1K10

    如何在Weka中加载CSV机器学习数据

    本教程假定您已经安装了Weka。 让我们开始吧。...每个属性可以有不同的类型,例如: 实数(Real)表示数值,如1.2。 整数(Integer)表示没有小数部分数的数值,如5。 标称(Nominal)表示分类数据,如“狗”和“猫”。...根据您的Weka安装(方式),您的Weka安装目录data /子目录下可能有或者没有一些默认的数据集。与Weka一起分发的这些默认数据集都是ARFF格式,并且具有.arff文件扩展名。...使用以下步骤,您可以将数据集从CSV格式转换为ARFF格式,并将其与Weka workbench结合使用。如果您没有方便的CSV文件,可以使用鸢尾花数据集。...Excel有强大的工具来加载各种格式的表格数据。使用这些工具,并首先将您的数据加载到Excel中。 将数据加载到Excel后,可以将其导出为CSV格式。

    9.8K100

    从机器学习开始的4个步骤:初学者开始和实践的自上而下的策略

    我可以看到这个方法分为四个步骤。你应该对这些步骤他们感到熟悉,因为它可能跟你用来学习编程的自上而下的方法相同,亦即,掌握基础知识,大量练习,然后在你找到感觉、进入状态后再深入细节。...初学者是不同的 初学者对机器学习有兴趣,但不知道如何迈出第一步。他们感到困惑,因为现有的博客文章和课程中的材料几乎都是给有中等知识水平的人看的,这些人都有着初学者所不具备的基础知识。...[weka-explorer-300x234.png] 加载了Iris数据集的Weka Explorer界面 你自己可以感受到这个平台使用起来有多容易,我写了一些5分钟的Weka教程,比如: 如何运行你的第一个分类器...一旦你开始使用Weka,你需要练习应用机器学习的6步骤流程。 Weka安装后包含一个带有许多标准的机器学习数据集的数据目录,大部分来自真实的具体领域的问题。...您可以在结构化流程的每个步骤中选择适合自己的详细程度。我建议每一步在开始时花费不超过一个小时。您可以在一小时内通过Weka对一个问题学到很多知识,特别是在设计和运行实验时。

    1.9K50

    做股票数据挖掘的一些日志

    于是我熬了几天夜,一周后把代码挖了出来,注释了大部分,大概有两万行吧(只有ID3算法,不包括C4.5),其实说出来还是蛮装B的,两万行的算法啊!...,再说从一开始,我们关注的就不是算法,而是最后的效果,最后挖掘出来的信息,到底有几分可信?...这里涉及到了一个问题,我们选取股票的哪些数据来做?我们知道,我们的数据最终都会被离散化,所以我们所选取的数据,一定不能是难以离散的。...我们得到的答案是:这样的预测能帮助我们知道,当前这支股票对哪些指标最敏感?可以想象这会成为股民的一大助力。...为了能让WEKA识别文件格式,我吧它另存为CSV文件,然后就可以用WEKA来做分析了。

    2.1K50

    机器学习算法之旅

    浏览该领域的主要算法以了解可用的方法有哪些是有用的. 有很多算法是可用的, 当算法名称被抛出时, 它会让人感到无所适从, 而你只需要知道它们是什么以及它们适合用在哪里....要把哪些类型的弱学习者结合起来, 以及如何把它们结合起来, 需要付出很多的努力. 这是一个非常强大的技术类, 因此非常受欢迎....进一步阅读 机器学习算法之旅是为了让你有一个关于如何将算法相互关联和有哪些算法的概念. 我已经收集了一些资源给你继续阅读关于算法的知识. 如果你有任何具体问题, 请留下评论....如何在Weka中运行你的第一个分类器: 在Weka中运行你的第一个分类器的教程(无需代码!). 最后致词 我希望你觉得这个文章有用. 如果你对如何改进算法游览有任何疑问或想法, 请留下评论....更新#2: 我添加了更多的资源和更多的算法. 我还添加了一个可以下载的简便的思维导图(见上文).

    1.6K50

    Weka机器学习使用介绍(数据+算法+实战)

    Weka的主页面窗口有四个模块: Explorer:进行数据的特征选择、分类、回归、聚类、关联规则、数据可视化等功能,口语进行不同的实验对比不同算法的结果。...通常对于Weka来说并不支持中文,Weka支持的有四种数据类型,分别是:numeric--数值型,--分类(nominal)型,string--字符串型,date []--日期和时间型。...之后直接导入arff格式的数据即可,省去了中间数据预处理的步骤。...三、 模型选择和实验 我们对预处理之后的数据进行分类,打开Classify选项卡 Classifier提供weka里的分类器,常用的有bayes下的Naïve Bayes朴素贝叶斯、BayesNet贝叶斯信念网络...;functions下的Liblinear、LibSVM(需要额外安装扩展包)、Logistic Regression、Linear Regression;lazy下的IBK(KNN);meta下的boosting

    17.4K43

    深度|DT时代的核心竞争力---数据分析与挖掘

    (3) 对平台客户进行群体细分,了解不同客户的贡献度与消费特征,分析哪些客户是最有价值的,哪些是需要重点的,对不同价值的客户采取不同的营销策略,将有限的资源投放到最有价值的客户身上,实现精准化营销。...对于有经验的数据挖掘专家,SAS/EM提供大量的选项,可让有经验的数据分析人员进行精细化调整分析处理。...正是由于有了这些扩展库,python才是数据分析与挖据常用的语言。...有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。...它能够让用户可视化创建数据流(也就常说的pipeline),选择性的执行部分或所有分解步骤,然后通过数据和模型上的交互式视图研究执行后的结果。

    1.3K40

    经典算法

    问题:当使用逻辑回归处理多标签的分类问题时,有哪些常见做法,分别应用于哪些场景,它们之间又有怎样的关系?...3 决策树 知识点:信息论,树形数据结构,优化理论 问题:决策树有哪些常用的启发函数? 常用的决策树算法有ID3,C4.5,CART,它们构建所使用的的启发式函数各是什么?...C4.5实际是对ID3进行优化,通过引入信息增益比,一定程度上对取值比较多的特征进行惩罚,避免ID3出现过拟合的特性,提升决策树的泛化能力。...且预剪枝存在一定局限性,有欠拟合的风险,虽然当前的划分会到导致测试集准确率降低,但在之后的划分中,准确率可能会有显著上升。...代价复杂剪枝主要包含步骤: 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/100182.html原文链接:

    90630

    Weka中BP神经网络的实践(参数调整以及结果分析)

    实践部分讲稿正文: Weka是什么? Weka是由新西兰怀卡托大学用Java开发的数据挖掘常用软件,Weka是怀卡托智能分析系统的缩写。...其允许我们在神经网络训练的过程中暂停和做一些修改(altering) 按左键添加一个节点(node)(节点将被自动选择以保证没有其他的节点被选择) 选中一个节点:左键单击 连接一个节点:首先选中一个起始节点...您可以在任何时候结束网络 网络在一开始是自动暂停的 有一个关于网络up了和error的运行时提示。...注意的是如果这个网络偏离了并且没有被允许去reset其将在训练的步骤失败并且返回一个错误信息 seed Seed用于初始化随机数的生成。...这个值用于决定在训练终止前在一行内的validation set error可以变差多少次 经过上面大家对于所有的参数有了一个大概的了解。 下面我们做一个简单的实验,也让大家有个直观的认识。

    4.6K80
    领券