首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

系统集成项目管理工程师(第3版):数据工程--数据标准化与数据质量

一、数据标准化

数据标准化主要为复杂的信息表达、分类和定位建立相应的原则和规范,使其简单化、结构化和标准化,从而实现信息的可理解、可比较和可共享,为信息在异构系统之间实现语义互操作提供基础支撑。数据标准化的主要内容包括元数据标准化、数据元标准化、数据模式标准化和数据分类与编码标准化。

在数据标准化活动中,要依据信息需求,并参照现行数据标准、信息系统的运行环境以及法规、政策和指导原则,在数据管理机构、专家组和开发者共同参与下,运用数据管理工具,得到注册的数据元素、物理模式和扩充的数据模型。数据标准化阶段的具体过程包括确定数据需求、制定数据标准、批准数据标准和实施数据标准。

(1)确定数据需求。本阶段将产生数据需求及相关的元数据、域值等文件。在确定数据需求时应考虑现行法规、政策,以及现行的数据标准。

(2)制定数据标准。本阶段要处理“确定数据需求”阶段提出的数据需求。如果现有的数据标准不能满足该数据需求,可以建议制定新的数据标准,也可建议修改或者封存已有的数据标准。推荐的、新的或修改的数据标准记录在数据字典中。这个阶段将产生供审查和批准的成套建议。

(3)批准数据标准。本阶段的数据管理机构对提交的数据标准建议、现行数据标准的修改或封存建议进行审查。一经批准,该数据标准将扩充或修改数据模型。

(4)实施数据标准。本阶段涉及在各信息系统中实施和改进已批准的数据标准。

二、数据质量

数据质量指在特定的业务环境下,数据满足业务运行、管理与决策的程度,是保证数据应用效果的基础。数据质量管理是指运用相关技术来衡量、提高和确保数据质量的规划、实施与控制等一系列活动。衡量数据质量的指标体系包括完整性、规范性、一致性、准确性、唯一性、及时性等。数据质量是一个广义的概念,是数据产品满足指标、状态和要求能力的特征总和。

(1)数据质量描述。数据质量可以通过数据质量元素来描述,数据质量元素分为数据质量定量元素和数据质量非定量元素。

(2)数据质量评价过程。数据质量评价过程是产生和报告数据质量结果的一系列步骤,如图 6-4所示描述了数据质量评价过程。

(3)数据质量评价方法。数据质量评价程序是通过应用一个或多个数据质量评价方法来完成的。数据质量评价方法分为直接评价法和间接评价法。直接评价法通过将数据与内部或外部的参照信息(如理论值等)进行对比来确定数据质量,间接评价法利用数据相关信息(如对数据源、采集方法等的描述)推断或评估数据质量。

(4)数据质量控制。数据产品的质量控制分成前期控制和后期控制两大部分。前期控制包括数据录入前的质量控制、数据录入过程中的实时质量控制;后期控制为数据录入完成后的后处理质量控制与评价。

在数据质量的前期控制中,在提交成果(即数据入库)之前对所获得的原始数据与完成的工作进行检查,进一步发现和改正错误;在数据质量管理过程中,通过减少和消除误差和错误,对数据在录入过程中进行属性的数据质量控制;在数据入库后进行系统检测,设计检测模板,利用检测程序进行系统自检;在数据存储管理中,可以通过各种精度评价方法进行精度分析,为用户提供可靠的数据质量。

整理不易动动你发财的小手点个“在看”哦!

您的支持是我坚持的动力,谢谢

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O2B421BhcIrbPjZS5oYNEAow0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券