前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据治理案例 | 某大型集成电路企业数据质量管理实践

数据治理案例 | 某大型集成电路企业数据质量管理实践

原创
作者头像
数据狗忙忙忙
发布于 2022-09-14 05:43:01
发布于 2022-09-14 05:43:01
1.1K0
举报
文章被收录于专栏:数据狗说事儿数据狗说事儿

项目背景

某大型集成电路企业是一家集芯片设计、工艺研发、晶圆生产与测试、销售服务于一体的半导体存储器企业,为全球提供先进的存储产品和解决方案,广泛应用于移动通信、计算机、数据中心和消费电子领域。该企业在数据管理系统和研制管理体系的控制下,设计、工艺、制造、试验、售后服务等环节都产生了大量的数据。在管理信息化、工程信息化的建设过程中,为减少信息孤岛,数据集成与共享不可逾越,不同系统间的数据正确性、一致性变得尤为重要。

当前该企业数据资源涉及7000-8000张数据库表,存储于不同的关系型数据库以及分布式数据库中,每天的增量数据在1-2T左右,在ETL过程中需要对数据的及时性、完整性和一致性进行校验。同时需要对互相有关联的业务数据进行业务规则校验,各式各样复杂的业务规则逻辑需要依靠业务骨干的工作积累和经验反复推敲才能落地,单靠技术部门的投入难以达到最好的效果。

综上,该企业需要一款独立于业务系统之外的数据质量管理平台,一方面满足技术部门长效的数据质量管控,另一方面能够形成业务精英为主、技术精英为辅的业务数据梳理体系。

痛点难点

该集成电路企业在发展过程中积累了大量的项目、客户、设备、产品等数据,随着数据共享以及决策的需求,以及数据使用范围的扩大,在使用过程中发现了大量数据问题,归纳如下:

1、需支持多样化的数据来源

当前业务数据存储在不同类型的数据库中,包含Oracle/Mysql/SQLServer/Postgresql/Hive/HDFS/Hbase/Kudu/Vertica等,所选平台需要具备多种数据源的接入机制,并能够基于后续的业务发展,适用更多的数据来源。

2、需支持繁简不一的规则配置

在数据质量管控过程中,需要进行各种各样的质检规则配置,简单的如空值校验、字段类型校验、值域校验、及时性校验等,复杂涉及多表关联的逻辑公式校验、完整性校验、一致性校验等,所选平台需要支持多种规则的校验设置,同时还要便于技术能力较弱的业务精英进行操作。

3、需支持海量数据的处理应对

面对海量数据的质检,不仅是数据量大,同时还面临多个质检工作的并发。一方面需要在规定时间内完成所有检验,另一方面给还需要及时将结果反馈给数据管理者。所选平台需要具备大数据量的处理能力、支持多个质检进程并发,同时还要考虑后续数据量越来越大,接入的数据源越来越多的发展趋势,能够支持集群中节点的灵活扩展,满足长期的数据质检需要。

看似表面的数据问题其实会对业务带来严重的影响,数据不真实、不准确、不共享,增加企业经营风险、管理难度和复杂度,跨组织信息共享程度低、资源难于整合。如何更好地管理和控制数据,做好数据质量平台建设,成为企业迫在眉睫的任务。

建设内容

本项目的建设内容就是从数据接入、转换、应用各个阶段加强数据质量的管控,为集团数仓、数据分析数据挖掘应用提供标准、可靠的基础数据支撑。

​该企业利用亿信华辰睿治数据治理软件搭建数据质量管理平台,主要用于解决业务系统运行、数据仓库建设及数据治理过程中的数据质量问题。它以标准化的数据质量规范为基础,运用数据挖掘、数据分析、工作流、评分卡、可视化等技术帮助组织建立数据质量管理体系,提升数据的完整性、规范性、及时性、一致性、逻辑性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。

系统主要功能包括质量检查规则管理、绩效管理、工作流管理、质量分析报表查询、质量报告等。

平台架构图
平台架构图

1、单点登录

为满足公司内部的通过统一身份认证平台进行数据质量平台的登录,实现了与认证平台的单点登录集成。

2、质量问题实现短信预警

数据质量平台支持按照配置的质检方案自动的执行质检,质检结果会自动的通过邮件或者短信发送到相关责任人,提醒技术人员及时的处理质量问题。

3、支持多种大数据平台数据源的质检

平台除了支持常见的关系型数据库数据进行质检外,还支持Hive/HDFS/Hbase/Kudu/Vertica等多种大数据库的数据源接入,能够满足公司后续的业务发展,适用丰富的数据类型。

项目价值

该企业数据质量管理平台的建设,满足了公司数据质量管控的需求,实现了数据质量检查的自动执行和问题数据短信预警,大大地提升了业务数据的质量,为公司数仓、数据分析、数据挖掘应用提供标准、可靠的基础数据支撑。客户对于项目整体建设成果非常满意,通过产品的应用,使各业务条线的数据质量问题得到有效管控,简化技术人员的数据质量问题核查的工作难度,同时极大地提升了客户的工作效率。

1)数据质量管理平台提供了可视化的页面就能完成数据质量检查工作,大大降低了数据质检的技术门槛,不仅仅只靠公司数据部门的技术人员来提升数据质量,现在也将业务部门的人员也参与到数据质量提升工作中,形成业务精英为主、技术精英为辅的业务数据梳理体系。

2)数据质量的质检结果实现了短信自动预警,提醒技术人员及时处理质量问题,提升了技术部门的数据质量问题管理效率。

3)随着公司业务数据不断增大,大数据平台的应用不断深入,数据质量平台支持多种基于Hadoop的数据源的接入进行质检,为公司业务的发展和质量管理奠定了基础。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【能力比对】数据质量管理VS数据质量平台
🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
用户11518204
2025/05/06
1050
【能力比对】数据质量管理VS数据质量平台
政务数据质量管理提升的5个最佳实践
近年来在国家政策推动以及各监管机构的要求下,政企单位对数据治理的关注度不断提高,而数据质量的提升就是体现数据治理成效的指标之一。今天和大家分享一下政务服务行业从不同业务角度出发,如何解决数据质量问题的案例。
数据狗忙忙忙
2022/09/21
4120
数据治理之数据质量管理
数据质量,是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
chimchim
2022/11/13
1.1K0
关于人工智能在数据质量管理中的应用
说实在的,人工智能这个概念有些过于高大上,从大的方面包括深度学习、机器学习、强化学习等等,而深度学习又包括图像识别、语音识别、自然语言处理、预测分析;机器学习则包括监督学习、无监督学习、半监督学习,监督学习又细分为回归、分类、决策树等等。理论上人工智能什么都能做,什么都能迎合的上。
python与大数据分析
2022/03/11
9310
关于DAMA数据质量管理的解读和一些看法
数据质量管理是组织变革管理中一项关键的支撑流程,包括整合数据源、创建一致的数据副本、交互提供数据或整合数据。数据清洗不能解决数据缺陷的根本原因。
python与大数据分析
2022/03/11
1.3K0
关于DAMA数据质量管理的解读和一些看法
五个原则下的数据质量建设之道
在数字化转型的背景下,数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源。糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。
yuanyi928
2023/01/11
7610
大数据质量管制规范示例
在当今大数据信息时代,大数据平台(大数据平台开发规范示例)和大数据仓库(大数据仓库开发规范示例)的开发规范已成为组织和企业管理决策的重要基础。
一臻数据
2024/12/24
1740
大数据质量管制规范示例
数据质量管理的一些思考
在近期的项目当中,我们为客户落地实施了数据资产平台。随后,在数据平台中接入了客户子公司的一个业务系统的明细数据。客户希望在我们的数据平台上通过数据探索和数据分析,来挖掘一些业务价值和业务创新点。
ThoughtWorks
2018/07/23
2.2K0
所谓数据治理
大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用,不敢用,因此,数据治理是大数据时代我们用好海量数据的必然选择。
王知无-import_bigdata
2021/06/01
9500
所谓数据治理
关于数据质量,必须要懂的 6 点!(好好看看)
按照国际数据管理协会的《数据管理知识手册》中规定,数据质量(DQ)是“既指与数据有关的特征,也指用于衡量或改进数据质量的过程。”但要深入理解数据质量,需要切分不同层次或维度。
公众号:大数据羊说
2022/05/17
6.3K0
关于数据质量,必须要懂的 6 点!(好好看看)
数据治理(三):数据质量管理
在大数据早期,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。到今天,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。在数据质量不高的环境下,做数据分析可谓问题重重,数据质量问题已经严重影响了组织业务的正常运营。通过科学的数据质量管理,持续地提升数据质量,已经成为组织内刻不容缓的优先任务。
Lansonli
2022/04/08
8820
数据治理(三):数据质量管理
DataMan:美团旅行数据质量监管平台实践
背景 数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。 数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决定了大数据质量所需的处理,有别于传统信息治理计划的质量管理方式。 本文基于美团点评大数据平台,通过对数据流转
美团技术团队
2018/03/29
2.8K0
DataMan:美团旅行数据质量监管平台实践
数据仓库之数据质量建设(深度好文)
数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的治理是什么?当然是数据质量治理,因为数据质量是数据分析结论有效性和准确性的基础,也是这一切的前提。所以如何保障数据质量,确保数据可用性是数据仓库建设中不容忽视的环节。
五分钟学大数据
2021/10/13
2.1K0
数据仓库之数据质量建设(深度好文)
元数据治理:产品方案介绍及案例实践
今天分享的主题是元数据治理实践,这是一项长期持续的工作,涉及多部门协作、多角色参与,链路长且复杂,要有完善的流程、成熟的平台、业务和技术部门共同参与,才能推进治理工作的有效展开。
从大数据到人工智能
2022/10/28
6600
元数据治理:产品方案介绍及案例实践
数据质量问题是“技术”问题还是“业务”问题?
是不是感觉漫画中的场景很熟悉?没错,这种场景几乎每天都在企业中重复上演。 一、数据质量问题的危害 当前越来越多的企业认识到了数据的重要性,数据仓库、大数据平台的建设如雨后春笋。但数据是一把双刃剑,它能
yuanyi928
2018/03/30
2.2K0
数据质量问题是“技术”问题还是“业务”问题?
专访数据质量与治理专家Danette McGilvray:企业应像管理财务那样管理数据
大数据文摘作品,转载具体要求见文末 文| 大数据文摘记者魏子敏 图| 大数据文摘摄影记者田晋阳 技术人员通常没有意识到,他们正掌控着一家公司中巨大的权力。 这是很多数据量大、业务部门冗杂的公司正每天面临的场景:大量业务数据从研发、业务、人力、财务部门涌向技术(或者数据处理)中心,技术人员根据他们所掌握的技术知识进行“科学”筛选分析,并把相应数据、系统返回各部门辅助决策。 如此重要的决策数据,很可能在分析前已经筛掉了业务部门的核心需要,而技术人员费了大力气跑出的数据回到业务部门的时候,因为无法被理解、或没
大数据文摘
2018/05/22
6760
技术人员做数据质量治理实践总结
作者:vanping  腾讯IEG后台开发工程师 |导语  当一个数据系统越来越复杂,参与方越来越多,其需要管理的数据量越来越庞大时,数据治理尤其是针对数据质量的治理就变得越来越重要且紧迫了。 本篇文章主要是对我过去一段时间针对O2所做的数据质量治理工作做一总结与分享,希望能够帮助到同样在做数据质量治理工作的同学。 01 导语 本人是IEG市场平台部的一名开发人员,目前主要负责O2广告投放系统的开发以及数据质量治理工作。O2是市场平台部-市场平台增长中心用于做游戏广告投放以及相关效果数据回收展示的系统。该
腾讯大讲堂
2021/01/19
9150
【rainbowzhou 面试15/101】技术提问--数据质量管理的流程有哪些?
在前面的系列文章中,我讲述了如何用一些大数据的测试方法来保障数据质量,那么还有其他方法吗?当然有,即数据质量管理的方式来保障数据质量。今天先从数据质量管理流程聊起,来看看如何更加全面、系统的管理数据质量,从而使数据变得更有价值,希望对大家有所帮助。
rainbowzhouj
2023/03/16
2520
【rainbowzhou 面试15/101】技术提问--数据质量管理的流程有哪些?
顺丰科技数据治理实践
导读:本文介绍顺丰科技在数据治理方面的实践。分享分为两个部分,第一部分总体介绍顺丰科技在整个数据治理过程中的心路历程:我们做了哪些工作,在数据治理各个领域,分别做了什么事情。第二部分分享数据治理中关键的主数据管理在顺丰科技的实践和落地情况。如下:
从大数据到人工智能
2022/11/21
7960
顺丰科技数据治理实践
企业数据治理及在美团的最佳实践
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。其实在我看来,数据可以分为两个部分,一是数字,二是文字。数字是没有意义的抽象符号,数据是有意义的数字。文字表意,数字表量,当两者结合起来,数据就产生了。
王知无-import_bigdata
2021/03/15
1.6K0
企业数据治理及在美团的最佳实践
推荐阅读
相关推荐
【能力比对】数据质量管理VS数据质量平台
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档