首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据建模的必要性,创建数据模型的步骤

越来越多的业务,越来越多的信息化系统,让很多公司拥有了海量数据,但是分散的数据、隔离的系统,又形成了一个个数据孤岛。于是,为了利用好数据,各大公司纷纷建设了数据仓库,或者是最近升级为大数据平台之类的。但是,不同条线不同场景的数据又要如何整合到同一个仓库呢?

数据模型就此应运而生,通过高度抽象的数据模型,整合各个源系统的数据,最终形成统一、规范、易用的数据仓库,进而提供包括数据集市、数据挖掘、报表展示、即席查询等上层服务。数据模型能够促进业务与技术进行有效沟通,形成对主要业务定义和术语的统一认识,具有跨部门、中性的特征,可以表达和涵盖所有的业务。无论是操作型数据库,还是数据仓库都需要数据模型组织数据构成,指导数据表设计。

以上看来,数据建模至关重要。数据建模过程需要专业的建模人员,业务人员以及潜在信息系统的用户紧密工作在一起。数据建模是认识数据的过程,数据模型是数据建模的输出模型有很多种,例如企业数据模型,物理模型,逻辑模型,业务模型,数据使用模型等等。在数据模型中既描述了业务关系,又描述了物理数据库的设计,是企业数据资产的核心。通过数据模型管理可以清楚地表达企业内部各种业务主体之间的相关性,使不同部门的业务人员、应用开发人员和系统管理人员获得关于系统的统一完整的视图。

那么创建数据模型的步骤有哪些呢?

一、制订目标

制订目标的前提是理解业务,明确要解决的商业现实问题是什么?

如:在社交平台KOL中,存在假粉丝的情况,如何识别假粉就是一个要解决的现实问题。

二、数据理解与准备

基于要解决的现实问题,理解和准备数据,一般需要解决以下问题:

需要哪些数据指标(即特征提取)?(如:哪些指标能区别真粉和假粉?)

数据指标的含义是什么?

数据的质量如何?(如:是否存在缺失值?)

数据能否满足需求?

数据还需要如何加工?(如:转换数据指标,将类别型变量转化为0-1哑变量,或将连续型数据转化为有序变量)

探索数据中的规律和模式,进而形成假设。

需要注意的是,数据准备工作可能需要尝试多次。因为在复杂的大型数据中,较难发现数据中存在的模式,初步形成的假设可能会被很快推翻,这时一定要静心钻研,不断试错。

数据建模后需要评估模型的效果,因此一般需要将数据分为训练集和测试集。

三、建立模型

在准备好的数据基础上,建立数据模型,这种模型可能是机器学习模型,也可能不需要机器学习等高深的算法。选择什么样的模型,是根据要解决的问题(目标)确定的。

当然可以选择两个或以上的模型对比,并适当调整参数,使模型效果不断优化。

四、模型评估

模型效果的评估有两个方面:一是模型是否解决了需要解决的问题(是否还有没有注意和考虑到的潜在问题需要解决);二是模型的精确性(误差率或者残差是否符合正态分布等)。

如:在识别KOL假粉的问题中,需要评估的是:

模型能否识别出假粉?

识别的误差率是多少?粉丝识别误差率=(假粉误认为真粉的数量+真粉误认为假粉的数量)/总粉丝数

五、结果呈现

结果呈现主要关注以下三个方面:

模型解决了哪些问题?

解决效果如何?

如何解决问题?具体操作步骤是什么?

六、模型部署

通过大量数据解决了一个或多个重要的现实问题,需要将方案落实下去,一般情况下需要通过线上技术环境部署落实,从而为后面不断优化模型、更好地解决问题打下基础。

我们需要使用专业的软件来帮助我们建立数据逻辑模型和物理模型、生成DDL,并且能够生成报告来描述这个模型,同时分享给其他伙伴。文末给大家推荐一款好用的的数据建模工具——Smartbi。

Smartbi除提供主要算法和建模功能外,还提供了必不可少的数据预处理功能,包括字 段拆分、行过滤与映射、列选择、随机采样、过滤空值、合并列、合并行、JOIN、行选择、去除重复值、排序、增加序列号、增加计算字段等。只有创建好适合业务和基础数据存储环境的模型,才能帮助我们快速查询所需要的数据,减少数据的IO吞吐。极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。也能改善用户使用数据的体验,提高使用数据的效率。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201222A0F4MP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券