虽然云计算使用起来非常方便,对于用户来说也具有较好的成本效益,但它在整合和处理数据方面也可能带来新的挑战和要求。
云计算的出现,让企业在投资IT和商业应用时,多了一种部署选择,不再仅限于本地部署。但云环境也经常会增加企业使用的系统的数量,此外,企业还需要具备跨平台的集成和数据数据准备的能力,只有这样他们才能整合不同来源的数据。
从本质上说,使用云计算让企业的成本由硬件和软件支出转变持续的运营支出。云计算还可以简化现金流和并降低成本,让企业能够将成本主要投入在其真正需要的技术上,并有足够的成本来扩大其IT系统,此外,该企业不必担心它的硬件会过时,因为云平台提供商可以负责对云环境中进行不断的系统升级。
云环境的好处吸引了一系列的企业,这些企业正在以一些不同的方式使用云计算技术,主要集中在以下三个用例。
使用云服务直接替换本地系统。在这种情况下,IT团队依旧负责云端应用程序端到端设计、开发、测试、实现和管理工作。这降低了企业在新技术上的支出,并允许它保持对应用平台的完全控制。
使用软件即服务(SaaS)应用程序,如使用Salesforce提供的应用程序。除了降低设备成本,使用SaaS的方式还简化了应用软件的实现和管理,这些软件通常是负责处理企业重点功能,如销售、营销、客户服务,财务和人力资源等。
使用完全管理的平台即服务(PaaS)环境。在PaaS设置中,云服务提供商负责设计、部署、后端处理和数据资源管理。
云中数据无处不在
尽管云提供很多好处,但它还是有一个显着的缺点:平台,应用程序,工具和数据的位置相对分散。虽然云系统对用户来说更加便捷,成本较低且速度更快,他们仍需要建立一个新的模式,数据分布跨越了不同的系统,也跨越企业和行政边界。大数据平台越来越多地部署在云中,考虑到它们包含的数据量,这可能会带来一些管理上的挑战。
这种数据的分散也导致了一些问题,例如在管理和使用云端数据方面。对于初学者来说,在云中如何妥善管理各种数据集的数据模型和元数据?进一步来说,如何访问所有的数据?如何保证不同数据集的同步,协调使用这些数据?
这样的问题在商业智能,报告和分析应用上更为明显。使用者必须采取一定的方法,以便在不同的云平台,应用程序和数据存储间完成数据集成和数据准备过程,如同在本地部署系统中完成数据集成和数据准备过程一样。同时,你还必须提供一个可操作的用户界面,以供业务分析师,数据科学家和其他智能分析用户查找,准备和分析相关的信息集。
架起数据间的桥梁
事实上,这些问题目前存在一个解决方案,那就是使用那些支持跨平台的数据集成和数据准备软件。这些工具,也包括自助数据准备软件,它提供了主流关系数据库管理系统和新的NoSQL数据库之间的连接器。该工具还可以链接到Hadoop集群和数据湖泊,获取存储在Hadoop分布式文件系统和相关的数据存储库中的数据。
此外,这些跨平台工具还可以摄取非结构化的文本文件和结构化的XML以及JSON文件,此外它们还可以摄取社交网络的数据流,网站点击流日志和股票市场数据。而且,他们还可以连接到SaaS应用程序和云服务,将产生的数据与其他所需信息数据整合,完成数据准备过程的自动化。
跨平台工具拥有其他三个关键属性。首先,它们能够直接将数据引入到任何选定的平台,这与传统的数据集成工具相比是一个很大的区别,传统数据集成工具是将数据从源系统抽取到一个单一的区域。第二,无论所需的数据存储在哪里,它们都能让终端用户非常容易的访问到数据,在数据展示层面,它们还支持数据可视化工具。第三、跨平台工具提供对数据集语义类别划分;其所存储的业务元数据能够提供有关数据元素的细节,定义和结构;它们还提供了数据集成过程所需相关的业务规则。
所有这一切都表明,跨平台的数据集成和数据准备工具不仅仅是改进了在混合数据源上(本地部署或云端)的数据提取、转换和加载过程。新兴的技术还融合了各种功能,提供了一个统一的方式来访问,准备,查询不同的数据以及实现数据的可视化。云环境中分散数据集也有了其对应的数据管理方式。