微信公众号:深广大数据Club
关注可了解更多大数据相关的资讯。问题或建议,请公众号留言;
如果你觉得深广大数据Club对你有帮助,欢迎赞赏
本文主要讲述大数据时代,数据湖要提供商业价值的五大功能。
数据湖定义
新的智能数据工具正在迅速克服新兴数据湖带来的共同挑战。这些工具可以轻松地在大数据规模上进行语义链接,分析和管理结构化和非结构化的各种数据,并使其可供业务用户自助服务使用。
数据湖通常被定义为大型数据存储库,以本机格式存储并托管在商用硬件上。它们的吸引力在于能够快速组装大量未经过滤的数据并相对于传统数据仓库以低成本存储它。在协调数据和向业务用户提供数据时,数据湖的挑战就出现了。这个过程是劳动密集型的,需要熟练的数据科学和IT人员。
智能数据工具采用不同的方法,使用业务友好的语义模型来描述,链接和上下文化数据,并使业务用户可以轻松访问。以下是对数据湖项目“民主化”至关重要的五个关键功能,使其可供所有业务用户访问和使用
1.在企业内部或外部转换和协调企业数据的常用方法,无论其来源是结构化或非结构化
在语义模型的驱动下,可伸缩服务器可以将结构化和非结构化的所有格式的数据转换为RDF图形格式。可以部署适当数量的服务器以容纳传入数据的源数量和总量,包括自动增量更新。根据每个数据源的性质,将应用以下一种或
智能数据工具采用不同的方法,使用业务友好的语义模型来描述,链接和上下文化数据,并使业务用户可以轻松访问。以下是对数据湖项目“民主化”至关重要的五个关键功能,使其可供所有业务用户访问和使用多种技术:
结构化或表格数据的映射和转换
文本分析,将非结构化数据转换为结构化图形
使用API或专有格式的数据源的自定义插件
使用Apache SPARK进行高性能映射和转换,将现有Hadoop数据引入智能数据湖环境
2.以对商业用户有意义的术语描述湖中所有数据的统一方式-它意味着什么以及如何将它们联系在一起。
语义数据模型可以轻松地捕获和传递数据湖中具有所有固有,关系和属性的数据的“含义”。在关系世界中,这样的模型需要转换为关系逻辑模型 - 由具有索引的数据库专家精心构建的模式和表,以优化已知或预期问题的集合。提出这样的问题需要转换为带有连接和优化的SQL查询 - 商业用户甚至大多数数据科学家都无法接触到。
另一方面,语义图模型不需要这样的翻译。数据的存储方式完全按照建模的方式存储 - 业务用户的思维方式 - 允许提出问题并动态探索新的假设。
3.业务用户自助服务功能,用于浏览,搜索和组合其用例所需的数据集。
业务用户应该能够为有价值的视图,分析和洞察配置搜索和可视化仪表板。仪表板完成后,可以交互式地分析内存图形引擎并在任何方向上遍历。
4.临时数据发现和分析工具,允许业务用户询问任何数据问题,包括未提前预测的数据。
基于弹性集群内存计算的顶级查询引擎是关键。该引擎应提供具有数十亿三元组的数据集的交互式即席查询和分析,以便为最终用户提供强大的分析工作流程。用户应该能够通过直观地探索整个模型中的路径,应用过滤器来优化特定数据的相关性,而不是依赖于矩形数据提取,而是能够创建表格,过滤器,图表和可视化。这种方法将数据发现和分析与速度和敏捷性相结合 - 快速得出新问题和临时问题的答案,而无需IT部门的支持。
5.支持企业数据质量,治理和访问控制策略。
精心设计的灵活性和重用程序,与方法和控制相平衡,将确保访问控制,安全性,完整数据沿袭或出处和数据上下文都得到保留。民主化的大数据 - 使每个人都能发现和分析所有数据 - 将需要应用治理,安全和灵活的政策。
原英文地址
https://insidebigdata.com/2015/10/16/the-top-5-data-lake-capabilities-required-to-deliver-business-value/
关注公众号
领取专属 10元无门槛券
私享最新 技术干货