全文2570字,预计阅读4分钟
大数据时代,显然我们已然意识到数据的重要性,但是,对于数据,我们是否有点“想当然”了:
(1)是不是认为数据的存在是理所当然的,当我们需要获得任何数据的时候,它一定是存在的?
(2)是否理所当然地以为一定有人在在管理着它?记录在更新、报表在运行、系统也在持续刷新?
真相很残酷。
那么,数据究竟是什么?今天,让我们来漫谈数据。
大数据时代,人人都在谈数据,但数据到底是什么?
这种看起来最简单的问题,却往往最为复杂。
本文将从数据的词源考察出发,梳理各相关方面对数据的定义,并试图进行理解分析,以探究数据的真正内涵。
数据的词源考证
从词源历史发展的角度来看,在拉丁文中,data是datum的复数形式,是由to give(给予)的拉丁过去分词dare(敢于)派生而来,字面意思是“给予的东西”。
Data一词最早用于英文,见于英国传教士Henry Hammond 撰写的一部宗教历史作品中。但由于书中采取拉丁文和英文混用的表达方式,让我们无从考证data的明确含义。
数据的第一种定义
数据常常被认为与计算机有关。
这是因为早在1946年,data一词就首次被用于明确表示“可传输和可存储的计算机信息”。
至今,新华词典依然将数据看作计算机加工处理的对象,但根据维基百科,数据的含义已不再局限于计算机领域,而是泛指所有定性或者定量的描述。
数据的第二种定义
国际数据管理协会(DAMA)认为,数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现。
这意味着,数据可以表现事实,但需要注意的是,数据≠事实——只有在特定的需求下,符合准确性、完整性、及时性等一系列特定要求的数据,才可以表现特定事实。
根据结构、格式等方面的差别,数据可被分为结构化数据和非结构化数据,比如数字就是结构化数据,而文本、图像、音频、视频等则均属于非结构化数据。
考虑到结构化数据和非结构化数据的差异性,我们在管理这两类数据时,也需要采取不同的管理方式。比如,针对非结构化数据的管理,DAMA采用的就是区别于结构化数据的“文档和内容管理”方式。
数据的第三种定义
美国质量学会(ASQ)将数据定义为“收集的一组事实”;美国资深数据质量架构师劳拉.塞巴斯蒂安认为,“数据是对真实世界的对象、事件和概念的被选择的属性的抽象表示,通过可明确定义的约定,对其含义、采集和存储进行表达和理解。”
如图1所示,当我们创建数据时,首先需要对真实世界的特征进行抽象,至于要对哪些特征进行抽象,以怎样的方式进行抽象,往往需要预先确定的规则,而这些规则将为创建和解读数据提供重要指导。
总而言之,这是一个观察、抽象、表示的过程,从这个意义上说,数据就是现实的“模型”。如果是简化模型的话,就存在失真的风险,而且,一旦简化,就存在解读的问题。
数据要描述的客体,包括对象(人、物、位置等)、事件和概念等,其中,描述人员、地点、事物的数据通常被称为主数据。由于主数据一般被用于多个业务流程和系统,所以,主数据的标准化、主数据的同步对于系统集成共享而言,就显得至关重要。
图1 创建数据的过程
数据的第四种定义
国际标准化组织(ISO)将数据定义为“以适合于通信、解释或处理的正规方式来表示的可重新解释的信息”。
数据本质上是一种表示方式,是人为创造的符号形态,是它所代表的对象的解释,同时又需要被解释。
数据同时承载着通信的任务。如图2所示,数据在通信过程中经过创建、使用和解释的过程。若缺乏与数据相关的创建和解释的标准规则,通信的过程就存在噪声和偏差。
数据对事物的表示方式和解释方式必须是权威、标准、通用的,只有这样,才可以达到通信(传输、共享)、解释和处理的目的。
而为了确保数据对事物的表示和解释方式是权威、通用、标准的,我们必须围绕数据制定一系列标准。
图2 数据和香农通信原理图
数据的第五种定义
《新牛津美语词典》(NOAD)将数据定义为“收集在一起的用于参考和分析的事实”。17世纪的哲学家用数据来表示“作为推理或计算基础的已知或假定为事实的事物”。
以上两种定义意味着,数据可支持分析、推理、计算和决策。
事实也确实如此,在科学领域,数据可以用来建立知识、检验假说、推进思路;企业等其他营利性组织也可以通过使用数据来提供更好的产品和服务,提高自身利润、降低运营成本和控制风险;而在政府、教育和非营利组织中,数据则可以被用来提供更好的公共服务,指导日常运营和制定发展战略。
不过,如果要确保数据能够支持分析、推理、计算和决策,我们就必须保证事实、数据的真实、准确,这是最基本的要求。
数据的第六种定义
数据也是业务流程的产物,是IT系统的组成部分。麻省理工学院(MIT)在20世纪80年代建立的全面数据质量管理TDQM项目的主要理念就是,将数据视为业务流程和信息系统的产品或副产品来进行管理和质量控制。
如何理解像管理产品那样管理数据?一方面是指,按照数据的全生命周期,对数据进行全面、全流程的管理;另一方面也是指,按照数据的生命周期的不同阶段,进行有针对性地管理。
像管理产品那样管理数据也指导我们应用“产品思维”来管理数据的质量,即以数据使用者的需求为导向、以数据价值的最大化为目的来管理数据。
数据的第七种定义
根据《新牛津美语词典》,数据是指由计算机对其进行操作,以电信号的形式被存储和传输,并记录在磁、光或机械记录介质上的数量、字符或符号。
而在《Developing High Data Models》一书中,Matthew West 进一步指出,当我们越来越依赖信息的电子储存时,我们已经改变了保存信息的方式,而保存信息的发展趋势是将信息作为数据来保存,因为这能够增加计算机支持。
由上观之,数据可以被视为人机对话的基础语言。人工智能可以理解为,用计算机的方式去理解人类知识和智慧,理解人类创造的行业和业务,并进行模拟、延伸和扩展,而人工智能的基础就是计算机的结构化形式——数据。
同时,计算机存储等电子储存形式又能够使我们更加快速获取、理解和使用数据。
结语
数据到底是什么?在一般领域,人们似乎可以就这个问题的答案似乎达成共识。大家会异口同声地回答,数据是一种表示符号,是对现实的反映。
但如果我们细究其内涵,我们就发现,似乎很难统一数据在不同领域、不同背景下的意义。
具体而言,因为数据是对现实世界的抽象,是现实世界的“模型”,所以数据不一定等于现实,只有在符合一定要求的情况下才可以准确反映现实;对于结构化数据和非结构化数据,我们需要采取不同的存储与管理方式;基于创建数据的过程和通信的需要,数据要遵循特定的规范和标准;因为数据要支持分析、推理、计算和决策,所以真实、准确是对数据的时期基本要求。
由此不难发现,数据的真正内涵绝不是想当然就能脱口而出的,在认识、利用数据的路上,我们依然任重而道远。
References:
DAMA International.DAMA数据管理知识体系指南[M].北京∶清华大学出版社,2016年∶1-2 .
LauraSebastian-Coleman.《数据质量测量的持续改进》[M] .北京:机械工业出版社,2016年:13-21.
《新牛津美语词典》(NOAD),第2版,(纽约:牛津大学出版社,2005年).
Danette McGilvray.《数据质量工程实践——获取高质量数据和可信信息的十大步骤》[M] .北京:电子工业出版社.
本期作者
方略研究院北京研究分站 李小森
一读EDU编辑部
领取专属 10元无门槛券
私享最新 技术干货