本次更新继续分享企业数据治理的相关学习心得,知识点源自《DAMA数据管理知识体系指南》第9章,内容上衔接前一次更新,核心关于数据仓库与商务智能管理。
数据仓库和商务智能管理的活动
在生命周期过程中,数据仓库活动主要关注于把数据从数据源整合到可供各个部门使用的公共存储区中,即关注数据内容;商务智能管理活动关注从公共数据存储区到目标用户使用数据,即关注数据展示
01
理解需求
数据仓库和商务智能管理成功的关键在于在整个生命周期中始终保持一致的业务重点,通过对企业价值链的观察,可以很好地理解业务背景
数据仓库和商务智能项目收集需求与其他典型的IT项目有很多不同点,相比较而言,它要求从更广泛的业务背景环境中理解目标业务领域,其最终目的是要将数据用于归纳和探索
理解商务智能信息需求的要求:
识别业务领域并明确其范围,确认并访谈适当的业务人员,了解如何进行分析以及为什么这么做,尽可能定义、获取关键绩效指标度量和计算公式
获取实际的业务词汇和术语是成功的关键,商务智能需求收集活动是与元数据管理智能非常好的交互机会,从最初的数据源,到最终展现,需求分析对于理解端到端数据的业务环境非常关键
记录业务背景环境,探索实际源数据的细节,通常数据ETL活动可能占去整个数据仓库和商务智能项目67%的成本和时间,这个过程与数据质量职能的协作是必不可少的
数据仓库通常会受到源系统和数据录入功能中质量低下数据的负面影响,对于必然出现在实际数据中的那些异常数据情况,处理它们是非常必要的,因此与数据治理职能协同相当关键
企业数据治理(上)企业数据治理(下)
对于数据仓库和商务智能项目可以通过对业务影响和技术可行性进行评估,业务影响大、技术可行性高的项目可优先启动
02
定义并维护架构
成功的数据仓库和商务智能架构要求确立许多关键的角色,包括:
技术架构师
数据架构师
ETL架构师
元数据专家
商务智能应用架构师
数据仓库和商务智能管理需要利用许多学科的知识,以及公司IT部门和业务部门等多个组件,需要评估和整合合适的业务流程、架构以及技术标准,包括:
服务器
数据库
数据的黄金副本确认和业务确认
数据安全
数据保留
ETL工具
数据质量工具
元数据工具
商务智能工具
监控和管理工具以及报表
任务调度工具和调度计划
错误处理流程和程序
从技术需求角度而言,效率、可用性和及时性方面的需求是开发数据仓库和商务智能管理架构的关键因素
数据仓库包含哪些详细的数据是架构设计中需要被优先考虑的关键活动,最佳方案是设计一个机制可以把数据仓库中原子级别的数据回溯到交易级别和运营级别,避免数据仓库加载每一个交易数据的细节
小编说
小编认为如果应用数据仓库技术建设数字档案馆,原子级别的数据是有必要保留的,这样做方便对归档数据进行追溯与审计
另外一个关键的成功因素是确定数据重用、共享和扩展规划
03
项目实施
数据仓库的目的是将来自多个数据源的数据进行整合,整合后的数据为商务智能服务,其设计是一个符合范式要求的关系型数据库,理想状态下一个数据仓库会整合多个数据源的数据,并将这些数据服务于多个数据集市
小编说
小编认为《指南》成书较早,随着需求深化与技术发展数仓绝不仅仅是一个面向结构化数据的、符合范式要求的关系型数据库,它还要整合、处理半结构、非结构化数据,因此在实施方面还会涉及像文档型、图型、对象型等多种类型数据库
数据集市的目的是为知识工作者的分析提供数据,成功的数据集市必须提供简单、易于理解且性能良好的数据访问方法,通常包含聚合和汇总的信息以支持更迅速的分析
04
BI工具和用户界面
查询和报表工具:从数据源查询数据,然后以常见报表将数据格式化的过程,既可以是生产相关的报表如发票,也可以是一个管理报表。在这个过程中定义目标用户分组时需要关联到商务智能需求,要了解用户分组,然后为企业内不同用户组匹配合适的工具
联机事务分析(OLAP)工具:以不同维度和不同层次的细节提供互动和多维的分析功能,通常商务智能工具中的立方体(cube)包含了源自事实表的许多数字型事实,这些立方体可以是根据需求虚拟而成或是通过批处理作业生成的。通过维度将这些事实归纳到相应的模式。其价值在于通过分析师的思维模型将数据内容进行整理,从而减少了可能出现的混淆和错误。常见的联机分析处理操作包括:切片、切块、下钻/上卷、汇集、旋转
分析型应用:为不同的业务提供预定义的解决方案以优化某业务职能领域(例如人力资源管理)或行业垂直应用(例如零售分析)。不同类型的分析型应用包括客户、财务、供应链、制造以及人力资源应用。值得注意的是当企业采购了一个分析型应用,标志着同时采购了数据模型和预定义了业务度量的立方体和报表
实施管理仪表盘和记分卡:有效展示绩效信息的手段,通常仪表盘更多地用于动态展现运营信息,而记分卡则更多地用于静态展现企业长期的组织架构、战术和战略层面的目标
预测分析和数据挖掘工具:一种特别的分析,使用不同的算法解释数据中的模式,帮助用户以更加具有探索性的风格去发现数据之间的关系,展示数据的模式;预测分析允许用户创建一个模型,用真实的数据测试模型,并据此投影出将来的结果。可使用神经网络或推理作为分析引擎
05
处理BI所需数据
暂存区(Staging Area)是原始数据源和中心数据存储库之间的数据存储,所有对数据必须的清洗、转换、整合,以及管理都发生在此区域,先进的架构以良好的定义和循序渐进的方式来实现这些处理过程,根据业务优先级过滤出需要的数据,并以逐步迭代、渐进的方式进行数据的一致化和范式化。暂存区中的数据可以从几个月到几年,这样的好处包括:
在原系统保存有限的数据,从而改善源系统的性能
主动捕获完整的数据集合,以满足未来可能的需要
以单次抽取的方式最小化对源系统在时间和性能方面的影响
主动地创建一个数据存储,使其不受限于交易系统限制
映射源和目标是一个文档创建活动,用于对所有需要的实体和数据元素定义详细的数据类型及转换规则,并且为每一个目标都找到一个数据源。相对传统的数据迁移,数仓和商务智能管理增加了额外的需求,要为每一个元素提供完整的血缘关系,以追溯各自的源头
数据清洗专注于校正单个数据元素取值,并提高该元素的领域价值,包括标准的强制执行,由于在初始加载过程中涉及大量的历史数据,数据清洗特别重要,如果有可能首选的策略是将数据回退到源系统进行数据清洗和校正活动
数据转换专注在数据元素、实体和主题域之间提供组织环境,组织环境包括交叉参照,参考数据和主数据管理,以及完成和纠正数据关系。数据转换是将数据从多个数据源进行整合的基本条件
06
监控并调整处理过程、活动、性能
透明性和可见性是驱动数据仓库和商务智能监控的关键原则,越是将相关活动的细节暴露无遗,越是可以让最终用户看见并理解正在进行的工作,而且对最终用户的直接支持也会越来越轻松
监控整个系统的处理过程以发现处理过程的瓶颈和处理过程间的依赖关系,其中归档是数据仓库的难点,用户常常把数据仓库看做数据归档活动,因为这里有长久以来的历史数据,但不愿意把数据仓库本身也进行归档,特别是在需要从联机分析处理数据源删除记录时
商务智能监控和调优的最佳做法是定义和显示一套面向客户的满意度调查,此外对使用情况的统计数据和使用模式进行定期回顾是至关重要的
综述
在一个组织中实施数据仓库和商务智能管理智能需要遵从以下11个指导原则
得到管理层的承诺和支持
领域专家的保障,领域专家的支持和高可用性是得到正确的数据以及可用的商务智能解决方案的必要条件
聚焦于业务,并由之驱动。确保数据仓库和商务智能工作服务于业务需求,解决业务上的燃眉之急,并让业务部门决定活动的优先级
能够验证数据质量非常重要
逐步提供更多的价值,比较理想的是以2-3个月为周期,分阶段进行交付
透明度和自助服务,提供更多的关联环境信息(各种元数据),用户能够据此派生出更多的价值。
一处适用不等于处处适用,确保为每一个具体的客户找到了合适的工具和产品
从全局考虑并设计架构,但要从本地(局部)开始行动和创建,让宏观蓝图和终极愿景指导架构设计,但是以增量的方式聚焦于短期和基于项目的目标,逐步创建和交付成果
与其他的数据职能协作,特别是数据治理、数据质量和元数据管理
以终为始,在商务智能环境中由业务优先级和最终数据交付范围驱动数据仓库内容的创建
总结和优化,根据性能的需要在原子级别的数据上增加聚集或汇总数据,但不是替换详细数据
▼
领取专属 10元无门槛券
私享最新 技术干货