首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >什么是数据质量?

什么是数据质量?

作者头像
程序你好
发布于 2018-08-21 07:40:59
发布于 2018-08-21 07:40:59
1.1K0
举报
文章被收录于专栏:程序你好程序你好

数据是企业最重要的资源之一。它可以用来帮助你的生意顺利进行,实施新的策略,等等。

了解数据质量

数据一直是组织的核心。它是组织日常业务顺利进行和实施新战略的基石。分析数据和做出数据驱动决策的能力变得越来越重要。

个人也从数据的使用中获益良多。无论是投资股票还是找一个合适的房子来买,数据都为我们做决定提供了丰富的信息。数据是决策的基础,提供信息,帮助得出各种见解,帮助做出有效决策所需的预测。收集数据的来源有多种。

例如:

内部数据库:这些是企业和机构中最相关、最可靠的数据源。它们通常采用结构化格式,通常记录来自各种内部应用程序的数据,比如ERP(企业资源计划)、CRM(客户关系管理)和HCM(人力资本管理)。

平面文件:平面文件(平面文件(flat file)是去除了所有特定应用(程序)格式的电子记录,从而使数据元素可以迁移到其他的应用上进行处理。这种去除电子数据格式的模式可以避免因为硬件和专有软件的过时而导致数据丢失。 平面文件是一种计算机文件,所有信息都在一个信号字符串中。)是组织最常用的数据源之一。平面文件产生于组织外部的来源,或者当没有合适的机制来集成各种内部数据时。例如,供应商可以发送定期的平面文件,这些文件可以上传到组织的内部数据库中。此外,在组织中两个或多个应用程序之间没有集成的情况下,平面文件作为交换数据的媒介。在大多数情况下,平面文件中的数据被认为是不可靠的,并执行一些检查来验证和验证数据。

Web服务和API:Web服务是不同应用程序之间通信和数据交换的首选媒体。它们提供了一种标准化的数据通信和交换方式。它们是可靠的,数据验证很容易嵌入。

其他来源,如来自社交媒体、博客帖子、音频和视频的数据,正逐渐成为需要存储和分析的重要信息来源。

然而,并不是所有的数据都有用或服务于既定的需求。例如,假设我想买一栋房子。然而,我得到的数据提供了与我所考虑的不同领域的购房历史趋势。这不合我的需要。除非信息足够好,否则数据就根本没办法使用。

适合预期使用的数据称为有用数据。不良数据阻碍了分析过程。立即找到一个可靠的数据集是非常困难的。我们必须精心制作和培育良好的数据。在本文中,我们将讨论在组织中管理、监视和改进数据质量的各种技术。对于那些依赖数据进行活动的个人来说,其中的一些内容也很有用。

高质量数据具有以下特性:

1、适合使用-正确和完整。

2、是对现实世界的真实反映。

3、它是可用的、一致的和可访问的。

数据质量可以根据以下维度进行测量:

1、完整性:是否有丢失或无法使用的数据?

2、数据是否符合标准格式?

3、一致性:数据值是提供一致的信息还是提供冲突的信息?

4、准确性:数据是准确的,还是过时的?

5、重复:数据记录或属性在不应该重复的地方是重复的吗?

6、完整性:数据是可引用的还是缺少约束?

定义数据质量的主要特征有两个

1、数据可用性

可用性意味着数据可以提供特定任务所需的相关内容。例如,关于客户年龄或位置的数据可能有助于消费品行业的客户保留计划。但是,关于客户地点的天气或土壤质量的数据可能无法用于这种保留活动。然而,这些天气或土壤质量数据可能对花卉行业的目标客户有用。因此,数据可用性与其驱动特定任务的操作/洞察的能力相关,并且它需要与工作相关的精确表示。当相似的数据出现在多个位置(比如不同的数据库和数据仓库)时,它们需要同步以具有相同的数据表示形式。

2、数据量

数据量定义了分析所需的数据量。在数据质量计划开始时估计和评估数据量对于程序的成功是至关重要的。我们需要的数据是太少还是太多?观察的次数是多少?没有太多数据的缺点是什么?这些问题可以帮助我们决定驱动数据质量计划所需的工具和技术。

手动检查数据以确保适合使用是确保数据质量的最佳方法。当数据量太小时,这是可能的。然而,鉴于我们目前拥有的数据量,仅仅依靠手工处理是太高了。为了消除人为错误和减少数据不准确,我们不得不依赖于各种技术和技术。我们需要遵循数据质量策略来保证数据的高质量。

有不同的阶段可以提供管理、监视和改进数据质量的能力,如下所示:

1、解析和标准化:从数据中提取片段以验证是否遵循特定模式的过程。如果它不符合模式,则对数据进行格式化以提供一致的值。

2、广义清理:消除数据中的错误和不一致的过程。

3、匹配:跨两组或多组数据比较、识别或合并相关实体的过程。

4、概要分析:分析数据集内容以验证数据的准确性、一致性和唯一性的过程。

5、监视:持续访问和评估数据以确保其符合目的的过程。

6、 充实:通过使用来自各种内部和外部来源的数据来提高数据质量的过程。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序你好 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
五问数据质量,一文讲透从根源到治理应用
近年来,在国家推动一系列企业数据相关政策的大背景下,数据要素化改革正在全方位铺开。数据已经从“辅助决策的信息资源”转向“驱动新质生产力和产业变革的核心要素”。
帆软BI
2025/07/16
780
五问数据质量,一文讲透从根源到治理应用
大数据测试——完整的软件测试初学者指南
大数据测试,在当前的测试领域是一个相对比较新的领域,而且难度也非常大。大数据测试从某种意义来说和人工智能测试有点类似,测试数据的量比较大,而test oracle又不像传统测试那样容易定义。另外大数据测试人员还必须懂得大数据的专业工具比如hadoop、HDFS、HiveQL、 Pig等,同时最好也需要懂python等语言,对测试人员的综合要求非常高。
Criss@陈磊
2020/04/26
8.9K0
大数据测试——完整的软件测试初学者指南
如何测试数据质量?看完你就知道了!
在中国大部分企业客观的讲,基本没有意识到数据质量的重要性,更没有专门的数据质量测试计划、团队、投入等。
苦叶子
2019/05/30
2.5K0
解析丨未来数据质量项目成功的三大支柱
我们现在处在一个新的时代:商业成功取决于比以前更快的从更多的系统和用户中获取可信任的数据。这个新时代的核心是大数据,它引进了新技术、新数据源、新数据类型,可以让你更了解顾客、竞争者的关联信息以及你从没想过的经营活动。 问题是这些信息常常充满了错误,那些即刻需要信息的人也不能马上获取它们。无论你负责技术策略还是信息策略,你都需要保证可以实时获取可靠的信息,这样你就可以比竞争者更快的做出准确的决策。否则,你就很容易被其他公司甩在后面。 数据质量曾经被认为仅仅是IT部门的责任,或者是在某一次数据迁移中才需要被考虑
钱塘数据
2018/03/01
6760
基于Python测试数据质量的过程及库
随着生成的数据量继续呈指数级增长,数据质量测试变得越来越重要。数据质量测试是确保数据准确、完整、一致并符合预期标准的过程。本文探讨了Python中的数据质量测试,包括它是什么,为什么它很重要,以及如何实现它。
苦叶子
2023/06/09
4220
基于Python测试数据质量的过程及库
《数据质量:人工智能模型的成败关键》
在当今人工智能飞速发展的时代,数据质量对人工智能模型的影响至关重要,它直接关系到模型的性能、准确性和可靠性。以下是对这一问题的详细探讨。
程序员阿伟
2025/01/02
2600
“数据质量”入门
数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
用户5548425
2019/07/16
1.3K0
“数据质量”入门
数据沿袭与数据溯源:7 个关键区别
数据沿袭揭示了数据从何而来以及它在生命周期中如何演变。另一方面,数据溯源更侧重于通过对数据和元数据的审计跟踪来验证数据的准确性、质量和可靠性的能力。
大数据杂货铺
2024/03/11
7240
数据沿袭与数据溯源:7 个关键区别
数据质量:数据治理的核心
随着大数据时代的到来,流动的数据已经成为连接全世界的载体,也成为促进经济社会发展、便利人们产生生活的源动力。伴随着数据的流动,尤其是为了解决流动过程中产生的一系列问题,”数据治理“流行起来。而要了解数据治理及数据质量,还得从数据、数据治理、数据质量这些基本概念说起。
用户7600169
2022/04/25
2.3K0
数据质量:数据治理的核心
数据质量监控框架及解决方案总结
随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。
大数据真好玩
2022/04/01
3.8K0
数据质量监控框架及解决方案总结
《数据质量评估方法大揭秘:精准衡量数据价值的关键》
在当今数字化时代,数据已成为企业和组织决策的重要依据,而数据质量的评估则是确保数据价值的关键环节。以下是一些常见的数据质量评估方法:
程序员阿伟
2025/01/02
3120
大数据的定义与概念
来源 | https://www.leiue.com/big-data-definitions-and-concepts
我脱下短袖
2019/12/23
1K0
大数据项目中的QA需要迎接新的挑战
根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元。在大数据和业务分析解决方案上投资增长最快的行业包括银行(复合年增长率13.3%)、医疗、保险、证券和投资服务、电信,每个行业复合年增长率都是12.8%。由此可见,大数据类项目在未来的地位将会越发重要,而作为QA,在大数据项目急速扩张的大背景下,也将迎来新的机遇和挑战。
ThoughtWorks
2020/02/19
5030
大数据项目中的QA需要迎接新的挑战
技术人员做数据质量治理实践总结
作者:vanping  腾讯IEG后台开发工程师 |导语  当一个数据系统越来越复杂,参与方越来越多,其需要管理的数据量越来越庞大时,数据治理尤其是针对数据质量的治理就变得越来越重要且紧迫了。 本篇文章主要是对我过去一段时间针对O2所做的数据质量治理工作做一总结与分享,希望能够帮助到同样在做数据质量治理工作的同学。 01 导语 本人是IEG市场平台部的一名开发人员,目前主要负责O2广告投放系统的开发以及数据质量治理工作。O2是市场平台部-市场平台增长中心用于做游戏广告投放以及相关效果数据回收展示的系统。该
腾讯大讲堂
2021/01/19
9210
4 步改进IT服务视角的CMDB数据质量
从IT服务视角来看,CMDB中不准确的配置项(Configration Item,后续简称“CI”)数据可能会延缓事件解决效率并降低变更质量。I&O领导人必须解决数据所有权、数据模型范围、记录系统和IT变更管理方面的差距,以持续改进配置项数据质量。
boypoo
2020/05/22
9900
联邦学习中怎样对数据质量进行评估:运用博弈论
在联邦学习中,数据质量的评估至关重要,它直接关系到模型训练的准确性和有效性。以下是联邦学习中数据质量评估的一些关键方面:
zhangjiqun
2024/12/14
2370
联邦学习中怎样对数据质量进行评估:运用博弈论
KPaaS洞察|一文讲清!如何通过清洗、标准化与验证提升企业数据质量?
企业中,低质量的数据(如重复记录、格式混乱、信息缺失等)不仅会导致分析结果失真,还可能引发业务决策失误。数据质量的高低直接决定了企业决策的准确性、业务流程的效率以及整体竞争力。据Gartner研究,全球企业每年因数据质量问题造成的平均损失高达1500万美元。如何确保数据从源头到应用的每个环节都准确、完整、一致?数据清洗、标准化与验证是三大关键步骤。
KPaaS集成扩展
2025/02/17
3030
KPaaS洞察|一文讲清!如何通过清洗、标准化与验证提升企业数据质量?
数据仓库系列之数据质量管理
  数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量。因此数据仓库的数据质量建设是一些公司的重点工作。
黄昏前黎明后
2019/09/11
3.2K0
数据仓库系列之数据质量管理
大数据架构和模式(三)——理解大数据解决方案的架构层
作者:Divakar Mysore等 来源:DeveloperWorks 摘要:大数据解决方案的逻辑层可以帮助定义和分类各个必要的组件,大数据解决方案需要使用这些组件来满足给定业务案例的功能性和非功能性需求。这些逻辑层列出了大数据解决方案的关键组件,包括从各种数据源获取数据的位置,以及向需要洞察的流程、设备和人员提供业务洞察所需的分析。 概述   这个 “大数据架构和模式” 系列的 第 2 部分 介绍了一种评估大数据解决方案可行性的基于维度的方法。如果您已经使用上一篇文章中的问题和提示分析了自己的情况,并
机器学习AI算法工程
2018/03/09
1K0
大数据架构和模式(三)——理解大数据解决方案的架构层
使用生成式AI创建更可信数据的呼吁
这听起来很矛盾——使用一项存在信任问题的技术来创建更可信的数据。但聪明的工程师可以利用生成式 AI来提高数据的质量,从而构建更准确、更可信的 AI 驱动的应用程序。
云云众生s
2024/08/25
1570
推荐阅读
相关推荐
五问数据质量,一文讲透从根源到治理应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档