Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据挖掘模型生命周期管理

数据挖掘模型生命周期管理

作者头像
机器学习AI算法工程
发布于 2018-03-09 03:59:18
发布于 2018-03-09 03:59:18
1.8K0
举报

为成功地利用数据挖掘模型,我们需要从开发阶段直至生产环境对模型进行全面跟踪管理与评估。挖掘模型生命周期过程是由以下阶段组成的高效交替过程。

  • 确定商业目标

最初的阶段集中在理解项目目标和从业务的角度理解需求,同时转化为数据挖掘问题的定义,完成目标的初步计划。确定所需模型以及模型的应用类型,制定策略保证模型部署后,业务单位了解模型的使用方法。

典型模型包括用于客户行为、风险管理和信用评分的预测建模模型。应用领域包括客户保有、信贷发放、交易验证、欺诈检测和促销等。这些因素推动数据采集和模型开发过程。

  • 数据理解

数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,检查数据的质量,初步发现数据的特征,或是探测引起兴趣的样本子集去构建隐含信息的假设。

影响数据质量的几个主要问题包括:缺失值、不合理值、不同数据源的不一致、异常值。

  • 数据准备

数据准备(预处理)阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将作为模型工具的输入值。这个阶段的任务有时一个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

现实中的数据通常是不完整的、不一致的、含噪声,污染数据的普遍存在导致了数据清理的必要性,所谓“垃圾进垃圾出”。形成污染数据的原因包括:滥用缩写词、数据输入错误、不同的惯用语、重复记录、缺失值、不同的计量单位等。

  • 建立模型

选择和应用不同的模型技术,调整模型参数到最佳值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

这个过程涉及采用挖掘统计和虚拟化技术、变量转换、过滤异常、数据替换、细分、聚合、预测建模运算和模型验证等。

  • 模型评估

在最后部署模型之前,重要的事情是较彻底地评估模型。检查构造模型的步骤,确保模型可以达成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,关于数据挖掘结果使用的一个决定必须达成共识。

随着越来越多地采用分析方法支持业务决策,预测模型已被视为企业的重要智能资产。每一种模型都是重要的,对企业利润水平、法规遵从和规避法律/经济风险具有重要作用。这种情况促使越来越多的企业将模型验证作为常规业务流程。

  • 结果发布

通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担实施的工作。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2014-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
两种最为常用的数据挖掘方法论
导读:本文介绍两种最为常用的数据挖掘方法论——CRISP-DM方法论和SEMMA方法论。
前端皮皮
2021/11/12
8550
两种最为常用的数据挖掘方法论
终于有人把数据挖掘讲明白了
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。
IT阅读排行榜
2021/11/25
9860
终于有人把数据挖掘讲明白了
☞【PPT】数据挖掘方法及案例介绍
面对山一样高的,海一样广的数据,我们该怎么办? 数据挖掘中的5W问题 ❶为什么要使用数据挖掘? ❷数据挖掘是什么? ❸谁在使用数据挖掘? ❹数据挖掘有哪些方法? ❺数据挖掘使用在哪些领域? 百度百科中
小莹莹
2018/04/23
2K0
☞【PPT】数据挖掘方法及案例介绍
数据挖掘标准规范之CRISP-DM基础
  每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日之物,大数据挖掘也不是一个孤立的概念,其实质还是采用传统的数据挖掘的方法,只是其实现工具发生了变化而已,本质的东西还在。引入发布近20年前的CRISP-DM数据挖掘标准规范模型,供大家共享,希望能有人喜欢。
数据饕餮
2019/01/14
5860
一文读懂数据挖掘建模预测
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
用户8544541
2022/06/15
7770
一文读懂数据挖掘建模预测
4个步骤,构建一个有指导的数据挖掘模型
数据挖掘的目的,就是从数据中找到更多的优质用户。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户,以提高未来活动的响应。 这构造有指导的数据挖掘模型的过程中,首先要定义模型的结构和目标。二、增加响应建模。三、考虑模型的稳定性。四、通过预测模型、剖析模
CDA数据分析师
2018/02/11
1.4K0
4个步骤,构建一个有指导的数据挖掘模型
MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门
一、什么是数据挖掘         数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,自动提取隐含在其中的、人们事先不知道的,
用户1148526
2018/01/03
2K0
MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门
数据挖掘快速入门
问题导读 1.什么是数据挖掘? 2.机器学习 与 数据挖掘在什么地方? 3.数据挖掘能解决什么问题? 1 数据挖掘 数据挖掘(Data Mining,简称DM),是指从大量的数据中,挖掘出未知的且有价值的信息和知识的过程。 2 机器学习 与 数据挖掘 与数据挖掘类似的有一个术语叫做”机器学习“,这两个术语在本质上的区别不大,如果在书店分别购买两本讲数据挖掘和机器学习的书籍,书中大部分内容都是互相重复的。具体来说,小的区别如下: 机器学习:更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,
用户1410343
2018/03/27
1K0
数据挖掘快速入门
数据挖掘工作的几点体会
1、挖掘工具主要分商业数据产品和集成数据挖掘产品两类:商业数据挖掘产品具有代表性的SPSS Clementine,SAS Enterprise Miner,IBM Intelligent Miner;SQL Server2005属于集成了挖掘模型类的,挖掘算法与SQL数据库产品密不可分,你甚至可以把自己实现的数据挖掘算法跟SQL进行集成,Oracle也类似,DB2的BI功能没怎么用,不是很清楚。 2、数据挖掘过程的重点绝对是数据预处理,一般认为预处理工作会占60%-80%时间不等,为什么预处理会如此重要,大
机器学习AI算法工程
2018/03/09
9940
关于互联网金融授信产品的风控建模
随着互联网渗透到生活中的各个角落,金融行业也似乎找到了与互联网的完美结合。互联网金融作为一个新的行业如今正在上升的势头上,因而也涌现了越来越多的P2P公司。但是作为一个互金公司来讲,风险永远是一个最重要的话题。那么如何利用机器学习以及大数据技术来降低风险呢?如何建立信用评分的模型呢?
Python数据科学
2018/09/14
3.2K0
关于互联网金融授信产品的风控建模
干货 | 从定义到应用,数据挖掘的一次权威定义之旅
什么是数据挖掘 前两天看到群里有人问,什么是数据挖掘,现在就数据挖掘的概念做一下分析,并且尽量用大白话说一下数据挖掘到底是个啥东西,为啥大数据来了数据挖掘也火了(其实原来就挺火)。 先看一上概念: 数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检
小莹莹
2018/04/23
8770
干货 | 从定义到应用,数据挖掘的一次权威定义之旅
用户增长分析系列:用户流失预警
针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户流失风险,提升大盘用户的留存率和活跃度。本文所涉及到的分析框架和方法论等具有较强的通用性,可供有需要的同学了解参考。
用户1756920
2018/11/23
1.8K0
《解锁Weka:数据挖掘实战的得力助手》
在数据爆炸的时代,从海量数据中挖掘有价值的信息,对企业和研究者来说至关重要。Weka作为一款强大的开源数据挖掘工具,为我们提供了丰富的算法和便捷的操作界面,在众多实际项目中发挥着关键作用。接下来,让我们通过具体案例深入了解Weka的应用,并探讨使用过程中的注意事项。
程序员阿伟
2025/01/31
1640
《解锁Weka:数据挖掘实战的得力助手》
数据挖掘的方法有哪些?
数据挖掘是一个多学科交叉的产物,涉及统计学、数据库、机器学习、人工智能及模式识别等多种学科,如图1-4所示。
全栈程序员站长
2022/09/07
2.2K0
数据挖掘模型的9条经验总结
数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的一种标准化过程,被越来越多的数据挖掘实践者 成功运用和遵循。 虽然CRISP-DM能够指导如何实施数据挖掘,但是它不能解释数据挖掘是什么或者为什么适合这
陆勤_数据人网
2018/02/26
6920
数据全生命周期管理(一)
说明:由于数据全生命周期管理主题涉及内容较多,因此分两篇文章分享。数据全生命周期(采集、存储、整合、呈现与使用、分析与应用、归档和销毁)相关内容在此篇文章“数据全生命周期管理(一)”分享;数据全生命周期管理(元数据管理、数据质量管理、数据安全管理、数据价值管理、配套管理办法和流程和数据全生命周期管理监控平台设计)相关内容放在接下来文章“数据全生命周期管理(二)”分享。
用户7600169
2022/04/25
11.8K1
数据全生命周期管理(一)
如何构建一个好的数据挖掘模型
1 首先要保证数据质量,特征值需要选择好,其次需要弄明白业务需求,确立你的分析目标是分类还是预测
许卉
2019/07/15
8170
跟我一起数据挖掘(19)——什么是数据挖掘(2)
什么是数据仓库? 数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理: ①数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库; ②数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 企业数据仓库的建设是以现有企业业务
cloudskyme
2018/03/20
1.3K0
跟我一起数据挖掘(19)——什么是数据挖掘(2)
【学习】SPSS预测分析模型商用:应用关联规则模型提高超市销量--关联分析(购物篮)
前言 在数据挖掘项目中,数据理解常常不被重视。但其实数据理解在整个数据挖掘项目中扮演着非常重要的角色,可以说是整个项目的基石。在计算机领域有一句话,“Garbage in,garbage out.” 意思就是说,如果你的输入数据没有经过科学的预处理,你所得到的结果必将是错误的。通过数据理解,我们可以理解数据的特性和不足,进而对数据进行预处理,使得将来得到的模型更加稳定和精确。其次通过理解数据项之间的关系,我们可以为建模时输入数据项和模型的选择提供重要的信息。 首先,我们需要了解 CRISP-DM 模型,从而
小莹莹
2018/04/23
2.7K0
【学习】SPSS预测分析模型商用:应用关联规则模型提高超市销量--关联分析(购物篮)
数据挖掘七种常用的方法汇总
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。这里的知识一般指规则、概念、规律及模式等。 数据挖掘建模过程
Banber可视化云平台
2021/10/22
22.6K0
数据挖掘七种常用的方法汇总
推荐阅读
相关推荐
两种最为常用的数据挖掘方法论
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档