第二层含义,商务智能指的是支持这类数据分析活动的<font color = red>技术集合</font>。决策支持工具、商务智能工具的不断进化,促成了数据查询、数据挖掘、统计分析、报表分析、场景建模、数据可视化及仪表板等一系列应用,它们被用于从预算到高级分析的方方面面。
2.2 数据仓库
数据仓库有两个重要组成部分: 一个集成的决策支持<font color = red>数据库</font>和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的<font color = red>软件程序</font>。 <font color = green>P292</font>
数据仓库建设还会包括相依赖的数据集市,数据集市是数据仓库中数据子集的副本。 <font color = green>P292</font>
从广义上来说,数据仓库包括为任何支持商务智能目标的实现提供数据的数据存储或提取操作。 <font color = green>P292</font>
2.3 数据仓库建设
数据仓库建设指的 是<font color = red>数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程</font>。数据仓库建设流程的重点,是<font color = red>通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历史的业务环境</font>。数据仓库建设还包括<font color = red>与元数据资料库交互的流程</font>。 <font color = green>P292</font>
传统意义上建设主要关注结构化数据,现在 也包含半结构化数据和非结构化数据。 <font color = green>P293</font>
2.4 数据仓库建设的方法
两位思想领袖比尔·恩门(BillInmon)和拉尔夫·金博尔( RalphKimball) 分别使用范式建模和多维建模来完成数据仓库建模。<font color = green>P293</font>
比尔·恩门在《数据仓库》(Building theDataWarehouse )中定义: <font color = red>数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合</font>。
拉尔夫·金博尔在《数据仓库工具箱》(The DataWarehouse Toolkit) 中提出: <font color = red>主张自下而上(DMDW)的方式,力推数据集市建设,他定义为“为查询和分析定制的交易数据的副本 。 ”</font>
企业信息工厂(Corporate Information Factory,CIF): Inmon关于数据仓库的组成是这样描述的:“<font color = red>面向主题的、整合的、随时间变化的、包含汇总和明细的、稳定的历史数据集合</font>”。 <font color = green>P293</font>
这种概念描述也适用于CIF,并指出了数据仓库和业务系统的区别。 <font color = green>P293</font>
业务系统到数据集市,数据流程过程的变化: <font color = green>P295</font>
1)目标:功能执行——>数据分析。2)用户:业务人员——>决策人员。3)使用:固定操作——>即席查询。4)时间:即时要求高——>不高。 5)影响面:数据少——>涉及更多数据。
数据仓库和数据集市的数据与应用程序中的数据不同: <font color = green>P295</font>
数据的组织形式是==按主题域而不是按功能需要==。
数据是==整合的数据,而不是“孤立”的烟囱数据==。
数据是==随时间变化的系列数据,而非仅当前时间的值==。
数据在数据仓库中的==延迟比在应用程序中高==。
数据仓库中提供的==历史数据比应用程序中提供的历史数据多==。
2.6 多维数据仓库(Kimball)
Kimball将数据仓库简单地定义为“专为查询和分析而构建的事务数据的副本”。多维模型旨在方便数据使用者理解和使用数据, 同时还支持更优的查询性能。它不是以实体关系模型的规范化要求组织的。 <font color = green>P295</font>
多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据)和维度表(存储与事实表数据相关的描述性属性, 为数据消费者解答关于事实表的问题,如这个季度产品X卖了多少)组成。事实表与许多维表关联,整个图看上去像星星一样。 <font color = green>P296</font>
多个事实数据表将通过“总线”共享公共的维度或遵循一致性的维度,类似于计算机中的总线。通过插入遵循维度的总线,可以将多个数据集市集成为企业级的数据集市。 <font color = green>P296</font>
Kimball的数据仓库比Inmon的数据仓库的可扩展性更强。数据仓库包含数据暂存和数据展示区域的所有组件。
Kimball 的数据仓库分为业务源系统、数据暂存区域、数据展示区域、数据访问工具四个部分。 <font color = green>P296</font> 见下图11-3
数据仓库的总线矩阵展示 的是<font color = red>生成事实数据的业务流程</font>和<font color = red>表示维度的数据主题域的交汇</font>。独立于技术,用于表示数据仓库/BI 系统长期数据的内容需求,帮助组织确定可管理的开发工作范围。<font color = green>P296</font> 见下表11-4
2.7 数据仓库架构组件
数据仓库环境包括一系列组织起来以满足企业需求的架构组件。 包括源系统,数据集成,数据存储区域等。 <font color = green>P298</font> 见下图 11-5
大数据方案一般会先加载数据,再处理,即 ELT。
源系统。 包括要流入数据仓库/商务智能环境的业务系统和外部数据。<font color = green>P297</font>
数据集成。 数据集成包括抽取、转换和加载(此三者英文首字母缩写为E、T、L,通常直接这把三者称为ETL)、数据虚拟化以及将数据转换为通用格式和位置的其他技术。<font color = green>P298</font>
数据存储区域 <font color = green>P298</font>
数据仓库包含多个不同用途的存储区域:
<font color = red>与数据仓库一起建立元数据</font>。 DW 的成功关键是能准确解释数据。
<font color = red>协同</font>。与其他数据活动协作,尤其是数据治理、数据质 量和元数据管理活动。
<font color = red>不要千篇一律</font>。为每种数据消费者提供正确的工具和产品。
3.3 业务驱动因素
数据仓库建设的主要驱动力是 <font color = red>运营支持职能、合规需求和商务智能活动</font>(尽管不是所有的商务智能活动都依赖仓库数据)。 <font color=green>P291</font>
3.4 输入
3.5 活动
活动: 1.理解<font color = red>需求</font>。2.定义和维护 DW 和 BI <font color = red>架构</font>。3.<font color = red>开发</font>数据仓库和数据集市。4.<font color = red>加载</font>数据仓库。 5.<font color = red>实施</font> BI 产品组合。6.<font color = red>维护</font>数据产品。
【活动 1】理解需求 <font color=green>P301</font>
首先,要考虑业务目标和<font color = red>业务战略</font>,确定业务领域并<font color = red>框定范围;</font>
然后,确定并对相关的业务人员进行<font color = red>访谈</font>,了解他们想做些什么和这么做的原因,记录他们当下关心的具体问题和想要询问的数据,以及他们如何区分和分类重要信息。
在可能的情况下,界定并书面记录关键的性能指标和计算口径。
将需求进行分类并排出<font color = red>优先级</font>,与生产上线相关的排在前面,将与数据仓库相关的和那些可以等的排在后面。
寻找并<font color = red>快速启动</font>那些简单且有价值的项目,以便在项目初始发布阶段就能获得产出。
【活动 2】定义和维护数据仓库/商务智能架构 <font color=green>P301</font>
数据仓库/商务智能架构应该描述<font color = red>数据从哪里来、到哪里去、什么时候去、为什么要去,以及用什么样的方式流入数据仓库。</font>
确定数据仓库/商务智能<font color = red>技术架构</font>。 应能以<font color = red>原子化的数据处理方式支</font>撑交易级和运营级的报表需求。做好<font color = red>原型设计</font>可以快速证明或驳斥关键需求的实现,避免对某些技术或架构进行过大的投入。
确定数据仓库/商 务智能<font color = red>管理流程</font>。通过协调和集成维护流程进行生产管理,定期向业务团队发布。<font color = red>建立一个有效的发布流程</font>,确保管理层理解这是一个以数据产品为中心的<font color = red>主动流程</font>,而不是已安装产品的被动式问题解决方式。
【活动 3】开发数据仓库和数据集市 <font color=green>P302</font>
数据仓库/商务智能建设项目有三条并存的构建轨迹:
==<font color = red>支持业务分析所必需的数据</font>==。识别最佳来源、设计规则、处理不合预期数据。
==<font color = red>技术</font>==。支持数据存储和迁移的后端系统及流程。
==<font color = red>商务智能工具</font>==。数据消费者从已部署的数据产品中获得有意义的数据洞察所必需的应用套件。
内容:(70%的工作)
<font color = red>将源映射到目标</font>。建立转换规则。确保链接有效性或等效性。逻辑数据模型。最困难是确定多系统数据间的链接有效性或等效性。
<font color = red>修正和转换数据</font>。数据修正或清理活动的执行标准。纠正域值。源系统应负责数据的修复工作并确保数据正确。<font color = red>乐观加载策略:</font>创建维度记录以容纳事实数据。<font color = red>悲观加载策略:</font>事实数据的回收区域。
确定数据加载方法时, 1.要考虑的关键因素是数据仓库和数据集市所需的<font color = red>延迟要求、源可用性、批处理窗口或上载间隔、目标数据库及时间帧的一致性</font>,还必须解决数据质量处理过程、执行转换的时间、延迟到达的维度和数据拒绝等问题。2.另一个因素是围绕变更数据捕获过程检测源系统中的数据变更,将这些变更集成在一起,并依时间调整变更。
【活动 5】实施商务智能产品组合 <font color=green>P304</font>
实施商务智能组合是<font color = red>为了在业务部门内部或业务部门之间为正确的用户社区选定合适的工具,通过协调常见业务流程、性能分析、管理风格和需求找到相似之处。</font>
根据需要给用户分组。了解用户组。将工具与用户组匹配。
将工具与用户要求相匹配。需要系统资源、技术支持、培训和架构集成。
【活动 6】维护数据产品 <font color=green>P305</font>
<font color = red>发布管理</font>。确保是最佳状态。
管理数据产品开发<font color = red>生命周期</font>。
<font color = red>监控和调优加载过程</font>。了解性能瓶颈和依赖路径。在需要的地方和时刻使用数据库调优技术,包括分区、备份调优和恢复策略调整。数据归档是数据仓库构建中的一个难题。
<font color = red>监控和调优商务智能活动和性能</font>。商务智能监控和调优的最佳实践是定义和显示一组面向客户满意度的指标,如平均查询响应时间,每天、每周或每月的用户数就是有用的指标。定期审查 。透明度和可见性推动数据仓库/商务智能监控的关键原则。
==<font color = red>元数据存储库。</font>== <font color =green>P307</font>
A.数据字典和术语。数据字典是支撑数据仓库使用的必需组件。字典用业务术语来描述数据,包括使用该数据所需的其他信息(如数据类型、结构细节、安全限制)。数据字典内容来自逻辑数据模型。
B.数据和数据模型的血缘关系。
记录的数据血缘关系有很多用途: 1)调查数据<font color = red>问题的根本原因</font>。2)对系统变更或数据问题进行<font color = red>影响分析</font>。3)根据数据来源确定数据的<font color = red>可靠性</font>。
==<font color = red>数据集成工具。</font>== <font color =green>P308</font>
用于加载数据仓库。考虑系统管理的如下功能:
1)过程审计、控制、重启和调度。
2)有选择地提取数据元素并将其提供给下游系统进行审计的能力。
3)控制操作的执行,并重启失败或中止的进程。还提供 BI 产品的集成功能,支持工作流消息、电子邮件甚至语义层的导入导出。
==<font color = red>商务智能工具。</font>== <font color =green>P308</font>
1)运营报表。
2)业务绩效管理 BPM。旨在优化业务战略的执行。绩效度量和带正反馈回路是关键的要素。绩效度量和带正反馈回路是关键的要素。
3)描述性自助分析。 为前台提供,指导运营决策。
【运营报表】 <font color =green>P309</font>
业务用户直接从交易系统、应用程序或数据仓库生成报表。
数据检索和报表工具,有时称为即席查询工具,允许用户编写自己需要的报表或创建供他人使用的报表。
业务运营报表中的需求通常与业务查询报告的需求不同。
生产报表跨越了数据仓库/商务智能的边界,它经常直接查询交易系统,产生诸如发票或银行对账单之类的操作项。
传统的商务智能工具可以很好地展现表格、饼图、折线图、面积图、条形图、直方图、K 线图等一些数据可视化方法。
【业务绩效管理】 <font color =green>P309</font>
绩效管理是一套集成的组织流程和应用程序,旨在优化业务战略的执行。应用程序包括预算、规划和财务合并。
【在线分析处理OLAP】 <font color =green>P310</font>
OLAP工具和Cube(数据立方体)的价值是,<font color = red>通过将数据内容与分析师的心理模型对齐,减少混淆和错误解释。</font>
多维分析查询提供快速性能的方法。常见操作有<font color = red>切片、切块、向下/向上钻 取、向上卷积、透视。</font>
三种经典 OLAP 实现方法如下: <font color = red>关系型联机分析处理 ROLAP。多维矩阵型联机分析处理 MOLAP。混合型联机分析处理 HOLAP。</font>
3.10 度量指标
使用指标。
包括注册用户数、连接用户数或并发用户数。
主题域覆盖率。
衡量每 个部门访问仓库的程度
响应时间和性能指标。
指标的后续跟进工作是验证和服务级别调整。
4 实施指南
就绪评估/风险评估: 所有IT项目都应该有业务支持,与战略保持一致,并有一个定义好的架构方法。 <font color =green>P312</font>
数据仓库应该能够实现以下几点:
明确数据敏感性和安全性约束。
选择工具。
保障资源安全。
创建抽取过程以评估和接收源数据。
版本路线图: 因为需要进行大量的开发工作,所以数据仓库是逐步构建的。无论选择何种实现方法,不管是瀑布式、迭代式,还是敏捷开发,都应该考虑到想要实现的最终状态。 <font color =green>P313</font>
组织与文件变革: 始终保持一致的业务重点是项目成功的关键。了解企业的价值链是理解业务环境的好方法,企业价值链中的特定业务流程提供了一个自然地面向业务的环境,该环境可用于构建分析领域。 <font color =green>P313</font>
<font color = red>最重要的是,考虑到以下关键成功因素</font>,将项目与实际业务需求保持一致并评估必要的业务支持: <font color =green>P314</font>