数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2...`”、“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。
在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。
DAMA对数据的定义:数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现。
根据数据的保存和管理方式,数据分为结构化数据、半结构化数据和非结构化数据。
结构化数据:可以使用关系型数据库表示和存储,常表现为二维表。如:SQL server,MySQL,Oracle。半结构化数据:不符合关系型数据库或其他数据表的形式,但使用相关标记分隔语义元素、或对记录和字段分层。如:XML,HTML,JSON。
非结构化数据:数据结构不规则或不完整,没有预定义的数据模型。如:文本、图片、各类报表、图像和音频/视频信息。
数据处理是人或机器对数据进行的重组或重新排序,以增加其特定的价值。数据处理包括以下基本步骤:输入、处理和输出。这三个步骤构成了数据处理周期。
信息,指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。在一切通讯和控制系统中,信息是一种普遍联系的形式。1948年,数学家香农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。创建一切宇宙万物的最基本单位是信息。
信息是指有上下文的数据。上下文包括:
一般来说,人们会认为“数据”的概念更客观一些,指的是那些能够不依赖人们主观意愿而转移、变化的现实存在。而信息则是对数据处理加工后的结果,人们会把对自身有价值的数据称之为信息。
比如对于一个足球迷而言,这个世界上一切有关足球的历史、记载;每一天发生的足球比赛、教练、球员以及工作人员的状况;甚至还有国际足联以及其下级单位的规定……这些都属于足球世界的数据。但是具体到这个球迷个体,他很有可能只关注自己喜爱的球队、球星……以及很有限的足球相关事件,这些他所关注的,就是信息。
现实一点来看,人们永远无法掌握“所有的数据”,却可以掌握可以让自己做出判断的“足够的信息”。
数据是未经处理的原始事实,需要对其进行处理以使其变得有意义,而信息是根据给定要求以有意义的方式处理的一组数据。
数据没有任何特定目的,而“信息”具有通过解释数据指定的含义。
另一方面,以位和字节为单位的数据以有意义的单位(例如时间,数量等)来衡量信息。
信息生命周期管理(Information Lifecycle Management)对企业用户而言是一种信息技术战略、是一种理念,而不仅仅是一个产品或方案。信息化建设中最关键的是数据,数据代表着信息,它可以构成企业的核心竞争力。信息从产生的那一刻起就自然地进入到了一个循环,经过收集、复制、访问、迁移、退出等多个步骤,最终完成一个生命周期,而这个过程必然需要良好管理的配合,如果不能进行很好地规划,结果就会是,要么是浪费了过多的资源;要么是资源不足降低了工作效率。
EMC公司建议客户分三个阶段实施信息生命周期管理:第一步,实施自动网络存储,优化存储基础设施;第二步,提高服务等级,优化信息管理;第三步,实施集成式生命周期管理环境。
ILM(Information life cycle management ,信息生命周期管理)对应的数据管理一般分为以下几个阶段: