Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >构建企业现代化数据平台,从“智能湖仓”开始|Q推荐

构建企业现代化数据平台,从“智能湖仓”开始|Q推荐

作者头像
深度学习与Python
发布于 2021-12-31 03:21:34
发布于 2021-12-31 03:21:34
1.3K0
举报

2021 年初,在 InfoQ 全年技术趋势展望中,数据湖数据仓库的融合,成为大数据领域的趋势重点。直至年末,关于二者的讨论依然热烈,行业内的主要分歧点在于数据湖、数据仓库对存储系统访问、权限管理等方面的把控;行业内的主要共识点则是二者结合必能降低大数据分析的成本,提高易用性。

而此类争论,又反映了行业在大数据处理领域的核心诉求:如何通过数据湖、数据仓库的设计,有效满足现代化应用的数据架构要求。亚马逊云科技作为行业头部云厂商,也推出了与数据湖、数据仓库融合相关的“智能湖仓”。为什么“智能湖仓”可以更智能地集成数据湖、数据仓库和其他数据处理服务?“智能湖仓”架构备受关注意味着什么?在技术行业风向标的 2021 亚马逊云科技 re:Invent 大会上,我们看到了“智能湖仓”架构的现在和未来构想。

1 被广泛关注的“智能湖仓”架构

理解“智能湖仓”架构的现在和未来,需要先了解它的过去。早在 2017 年,“智能湖仓”架构就已初具雏形。当时,亚马逊云科技发布了 Amazon Redshift Spectrum,让 Amazon Redshift 具备了打通数据仓库和数据湖的能力,实现了跨数据湖、数据仓库的数据查询。

这件事情启发了“智能湖仓”架构的形成。在 2020 年的亚马逊云科技 re:Invent 大会上,亚马逊云科技正式发布“智能湖仓”。如果从早期的技术探索开始算起,在 2021 亚马逊云科技 re:Invent 大会上发布的 Serverless 能力,代表了“智能湖仓”架构的第 8 轮技术演进。如今,“智能湖仓”基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志分析机器学习数据服务,利用 Amazon Lake Formation、Amazon Glue 等工具可以实现数据的自由流动与统一治理。

具体而言,“智能湖仓”架构下,首先需要打破数据孤岛形成一个数据湖;其次,需要围绕着数据湖,在不同应用场景为用户提供相应的分析工具;另外,需要确保数据在湖、仓以及专门的服务之间能够自由移动;此外,需要确保用统一的方式去管理湖里面数据的安全性、访问控制和审计;最终,需要能够采用低成本的方法将湖、仓各自的优势有效利用起来,并利用人工智能等创新手段进行创新。

就像 Amazon Redshift 在 2012 年发布时,引导了云原生数仓的发展方向一样,“智能湖仓”架构一经发布就引发业内广泛关注,一方面是因为亚马逊云科技作为头部云厂商的行业地位,另一方面是因为此架构在技术上的创新思路能够为行业带来一些新的思考。

“智能湖仓”更强调“架构”而非“产品”,更强调数据的自由流动与统一治理,以及基于湖仓的“智能创新”。如今,“智能湖仓”架构不是简单地将湖与仓打通,而是将湖、仓与专门构建的数据服务连接成为一个整体,让数据在其间无缝移动。面对向 TB 级、PB 级,甚至 EB 级增长的数据,“如何存”和“如何用”不再是相对孤立的话题。“智能湖仓”向行业传递了一个信号:企业需要统一数据分析工具,实现数据在整个数据平台的自由流转。

不管是企业数据管理理念的视角,还是在技术视角下,“智能湖仓”架构被广泛关注也意味着,随着数据湖和数据仓库的边界在逐渐淡化,基于两者的大数据处理体系的架构正在被重构。

2 “智能湖仓”架构下,重构中的大数据基础设施

这种重构大概可以分为几个维度来理解,其中最重要的是更强的数据安全、治理和数据共享能力,更敏捷的构建方式,更智能的创新手段。

数据安全、治理和共享,重点聚焦跨湖、跨仓库甚至跨企业的数据流通和治理,致力于实现真正意义上的数据跨域互通;更敏捷的构建方式则要将企业的敏态追求提升到极致,Serverless 能力的应用是其关键;更智能的创新手段则把 AI/ML 能力和大数据治理并入统一范畴,避免走入“为了大数据而大数据”的误区。

在 2022 年,当我们再次谈起数据湖和数据仓库的融合问题时,包含以上关键点的“智能湖仓”架构,很可能成为被业内重点参考的构建思路之一。

更强的数据安全、治理和数据共享能力

数据的安全、治理和共享,原是大数据的本职任务,但当数据达到 PB 乃至 EB 级,需要跨多个区域、组织、账户进行数据共享或数据交互时,企业有些时候并非不想细颗粒度管理数据,而是无法管理。这种颗粒度的权限控制往往比单机系统设计或者单一的分布式系统要复杂得多。所以,数据治理成为了“智能湖仓”重要的发力点。

在 2021 亚马逊云科技 re:Invent 大会上,支撑数据统一治理和自由流动能力的“智能湖仓”组件 Amazon Lake Formation 发布了多项新功能。除了之前早已支持的表和列级安全,Amazon Lake Formation 现在支持行和单元级权限,通过只限制用户对部分数据的访问权限,让限制访问敏感信息变得更加简单。

此外,Data mesh 的概念在 2021 亚马逊云科技 re:Invent 大会上也被提及。Data mesh 概念也是 Gartner 提出的十大数据技术趋势之一。在 Data mesh 模式下,“智能湖仓”能够实现领域数据成为产品、轻松启用细粒度授权、数据更容易被使用、数据调用跨企业可见和联邦的数据管控与合规。这意味着,“智能湖仓”架构下,Data mesh 可以实现跨数据湖的数据共享和计算。亚马逊云科技借助自身数据湖安全、tag 级别的访问控制和共享能力,为 Data mesh 提供了实现方式与手段,让 Data mesh 概念走向落地。

更敏捷的构建方式

除了更强的数据安全、治理和数据共享能力,更敏捷的构建方式也是绝大多数企业当下主要关注的技术创新之一。敏捷在企业间的认可度和应用程度越来越高,而“智能湖仓”原本就是敏捷的架构。在“智能湖仓”架构中,Amazon Lake Formation 能够将建立数据湖的时间从数月缩短到数天。用户可以使用像 Amazon Glue 这样的 Serverless 数据集成工具快速实现数据入湖;使用 Amazon Athena 这样的 Serverless 查询引擎直接实现基于 SQL 语言的湖上数据查询分析。无论是超大型公司还是工作室,都可以从这种敏捷的构建方式中快速获益,提取数据的价值。

为了让构建方式更敏捷,在 2021 亚马逊云科技 re:Invent 大会上,亚马逊云科技宣布推出更多数据分析服务的无服务器版,借助无服务器的能力,让用户可以更敏捷地构建自己的数据存储、分析、智能应用解决方案。

  • Amazon Redshift Serverless ,让数据仓库更敏捷,支持在几秒钟内自动设置和扩展资源,用户无需管理数据仓库集群,实现 PB 级数据规模运行高性能分析工作负载;
  • Amazon Managed Streaming for Apache Kafka (Amazon MSK) Serverless ,让流式数据接入与处理,支持快速扩展资源,简化实时数据摄取和流式传输,实现全面监控、移动甚至跨集群加载分区,自动调配和扩展计算和存储资源,让用户可以按需使用 Kafka;
  • Amazon EMR Serverless 让大数据处理更敏捷,用户无需部署、管理和扩展底层基础设施,使用开源大数据框架(如 Apache Spark、Hive 和 Presto)运行分析型应用程序;
  • Amazon Kinesis Data Streams on Demand 让流式数据分析与实时数据场景搭建更敏捷。每分钟可以处理数 GB 的写入和读取吞吐量,而不必预置与管理服务器、存储,在成本和性能之间取得平衡且变得更加简单。

来自亚马逊云科技的数据显示,现在每天有数以万计的用户每天在使用 Amazon Redshift 处理超过 2EB 的数据。全球最大的制药公司之一罗氏制药(Roche)首席云平台和机器学习工程师 Yannick Misteli 博士表示:“Amazon Redshift Serverless 可减轻运营负担,降低成本,并帮助罗氏制药规模化实践 Go-to-Market 策略。这种极简的方式改变了游戏规则,帮助我们快速上手并支持各种繁重的分析场景。”

更智能的创新手段

正如 Yannick Misteli 提到的一样,近些年来,底层的技术创新推动业务层的改变,而业务层的诉求也倒逼底层技术的进步。游戏规则正在技术升级中改变。如今,“智能”是绝大多数技术的演进目标。在亚马逊云科技的“智能湖仓”架构中,也将“智能”提到了一个相当重要的位置。

“智能湖仓”架构下,数据库服务与人工智能和机器学习深度集成。在具体的产品上,亚马逊云科技提供了 Amazon Aurora ML、Amazon Neptune ML、Amazon Redshift ML 等诸多数据库原生的机器学习服务。

同时,在“智能湖仓”架构中,还有云原生人工智能平台 Amazon SageMaker ,它提供了多类机器学习库和开发工具包,帮助用户快速构建人工智能应用。当用户需要面对大量数据处理场景时,可以使用 Amazon SageMaker 内置的工具轻松快速连接到 Amazon EMR 集群进行大数据处理。而 Amazon EMR Serverless,也帮助人工智能相关的数据处理与分析变得足够敏捷。

在 Gartner 2021 年发布的报告《Magic Quadrant for Cloud Database Management Systems》中,亚马逊云科技连续 7 年被评为“领导者”,这项报告面向的主要是对各大厂商提供的云数据库、云数据分析工具进行全景评估,并给出最终位置的“测评报告”,含金量可见一斑。亚马逊云科技参与评测的产品均为“智能湖仓”架构中的代表产品,这个“领导者地位”背后代表的技术成熟度不言自明。

我们可以看到,“智能湖仓”提供的每一款服务工具的迭代,都在向更敏捷、更安全、更智能的数据架构目标迈进。数据架构作为企业数字化转型的最底层,也是应用现代化的底层动力。“智能湖仓”带来的数据管理方式的变革,也承载着亚马逊云科技对应用现代化的构想。

3 写在最后

回到文章开篇提到的问题,目前行业内已经形成了数据湖和数据仓库的融合必将降低大数据分析成本的共识,主要分歧点在于数据湖、数据仓库对存储系统访问、权限管理等方面的把控。在这些方面,亚马逊云科技的“智能湖仓”架构围绕这些问题都提供了相关的工具或服务。

无论是在数据基础架构、统一分析还是业务创新上,从连接数据湖和数据仓库到跨数据库、跨域共享,“智能湖仓”在实际的业务场景中并非孤立存在,而是与应用程序紧密相连。

底层数据架构的现代化演进,也将为企业乃至全行业带来更大的价值。数据,作为与土地、劳动力、资本、技术并列的“第五大生产要素”,重要性不言而喻。如今,亚马逊云科技“智能湖仓”架构在企业中的实践,已经为企业构建现代化数据平台提供了一条可供遵循的路径。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据湖十年风雨路,AWS缘何脱颖而出
从2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念开始,数据湖十年发展之路可谓是兜兜转转、起起伏伏。在这期间,既有开源厂商们提出的各种营销理念,也有传统存储厂商打造的各类解决方案,更有业界对于数据湖带来的数据沼泽、数据价值探索等问题的深入思考。
大数据在线
2020/04/15
5690
数据湖十年风雨路,AWS缘何脱颖而出
数据湖VS数据仓库?湖仓一体了解一下
导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。
Spark学习技巧
2021/03/11
3.1K0
数据湖VS数据仓库?湖仓一体了解一下
2022年中国湖仓一体平台市场研究报告|爱分析报告
为适应数据应用需求,大数据平台架构持续演进,历经数据仓库、数据湖两个阶段。2020年,湖仓一体概念提出,湖仓一体架构因能实现数据资产统一管理、降低数据冗余、降低大数据平台架构运维复杂性,将成为大数据平台的主流架构。
爱分析ifenxi
2023/08/01
1.2K0
2022年中国湖仓一体平台市场研究报告|爱分析报告
7000字,详解仓湖一体架构!
沃尔玛拥有世界上最大的数据仓库系统,它利用数据挖掘方法对交易数据进行分析后发现"跟尿布一起购买最多的商品竟是啤酒!后来经过大量实际调查和分析,发现在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒,这是因为美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
肉眼品世界
2022/04/19
4.1K0
7000字,详解仓湖一体架构!
关于数据湖架构、战略和分析的8大错误认知(附链接)
本文的目的是构建数据湖,并提供适应企业数据策略的背景信息。咨询公司和提供商提出的意见相互矛盾,因此,这些信息历来一直不透明,令人困惑。
大数据文摘
2019/08/08
1.3K0
关于数据湖架构、战略和分析的8大错误认知(附链接)
应“云”而生,“智能湖仓”如何成为构建数据能力的最优解?
在这一过程中,作为数字化底座的云,已经不仅仅局限于基础设施角色,更是企业持续创新和精益运营的关键支撑。
科技云报道
2023/07/24
3830
应“云”而生,“智能湖仓”如何成为构建数据能力的最优解?
别说你懂湖仓一体
数据库行业正走向分水岭。 过去几年,全球数据库行业发展迅猛。2020年,Gartner首次把数据库领域的魔力象限重新定义为Cloud DBMS,把云数据库作为唯一的评价方向;2021年,Gartner魔力象限又发生了两个关键的变化: 1、Snowflake和Databricks两个云端数据仓库进入领导者象限; 2、放开了魔力象限的收入门槛限制,SingleStore、Exasol、MariaDB、Couchbase等数据库新势力首次进入榜单。 某种程度上,这种变化的背后,暗示着全球数据库已经进入发展的黄金时
云头条
2022/03/18
6540
Serverless时代已经全面到来:冷启动时间降低90%,数据分析All on Serverless
作者 | Tina 亚马逊云科技已经将数据分析产品全面Serverless化,并拓展到全栈,率先完成了包括计算、存储、数据库、数据分析等领域服务的Serverless 化。 Serverless 已经不再是一个未来概念了。多年来,我们目睹了各种技术的兴起和普及。20 世纪 90 年代后期,Linux 受到了空前的关注,并最终成为业界领先的服务器操作系统。在 2000 年代初期,虚拟化提高了服务器利用率,为云计算铺平了道路。如今,Linux 和虚拟化作为云计算的基础已经无处不在。而现在,最热的技术话题都是围
深度学习与Python
2023/03/29
9150
Serverless时代已经全面到来:冷启动时间降低90%,数据分析All on Serverless
激荡十年,从未来窗口 re:Invent 看云计算发展变迁 | Q推荐
作者 | 张雅文   从最初被质疑仅仅是个广告概念,到如今形成巨大的产业生态,云计算已经高速发展十余年。这十余年间,IT 世界天翻地覆,无数新理念、新技术不断涌现,其变革速度让开发者应接不暇,没有谁敢确信,自己正走在时代的最前沿。 或许也正是因此,re:Invent 作为云计算领域的全球最大规模的会议,每年都能吸引上万名开发者去往拉斯维加斯。今年是 re:Invent 第十年,在过去的十年中,re:Invent 曾无数次预见未来,其部分产品发布堪比权威机构的调研定调,使得这场盛会几乎成为全世界开发者看向未
深度学习与Python
2023/04/01
5080
激荡十年,从未来窗口 re:Invent 看云计算发展变迁 | Q推荐
数据仓库与数据湖与湖仓一体:概述及比较
随着越来越多的公司依靠数据来推动关键业务决策、改进产品供应并更好地服务客户,公司捕获的数据量比以往任何时候都多。Domo 的这项研究估计,2017 年每天会生成 2.5 百亿字节的数据,到 2025 年,这一数字将增加到 463 艾字节。但如果公司不能快速利用这些数据,那么这些数据又有什么用呢?针对数据分析需求的最佳数据存储这一话题长期以来一直存在争议。
大数据杂货铺
2024/04/15
4.4K0
数据仓库与数据湖与湖仓一体:概述及比较
为什么实时数仓不可代替?
大数据时代中,数据仓库解决了商业智能分析过程中的数据管理问题,但是存在烟囱式、冗余高的弊端
大数据学习与分享
2023/02/26
5800
为什么实时数仓不可代替?
万字详解大数据架构新概念
来源:五分钟学大数据 本文约10000+字,建议阅读10+分钟 本文将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析。 随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。 但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充? 本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数
数据派THU
2023/02/23
5930
万字详解大数据架构新概念
大数据技术演进实录:云原生大数据、湖仓一体、AI for Data,未来“谁主沉浮”?| Q推荐
从大数据发展的历史长河来看,谷歌的“三驾马车”—— 《GFS》、《MapReduce》和《BigTable》,加上亚马逊的一篇关于 Dynamo 系统的论文奠定了大数据时代发展的基础。从“大数据之父”道格·卡丁创造了 Hadoop 到现在许多厂商开始单独造轮子、做开源,大数据的发展首先是获得了大规模数据的处理能力,然后再解决了数据的分析与挖掘问题,到如今又开始解决“如何实时查询数据”的问题,从近 20 年的发展中基本可以看出,这些演进的背后都是由企业需求和业务发展驱动的。 英特尔院士、大数据技术全球 CTO
深度学习与Python
2023/03/29
6770
大数据技术演进实录:云原生大数据、湖仓一体、AI for Data,未来“谁主沉浮”?| Q推荐
湖仓一体,技术“缝合怪”?
在当今数据驱动的商业世界中,高效、灵活的数据管理成为企业成功的关键。数据仓库和数据湖,作为数据存储和处理的两种主流技术,分别扮演着独特而重要的角色。
数据猿
2023/12/01
4440
湖仓一体,技术“缝合怪”?
腾讯云位居 IDC MarketScape 中国实时湖仓市场“领导者”类别
IDC MarketScape 厂商评估模型旨在为特定市场中信息和通信技术(ICT)厂商的竞争力提供一个概述。研究方法采用严格的定性和定量的标准的评分方法,以单一的图形说明每个厂商在特定市场中的位置。IDC MarketScape 提供了一个清晰的框架,在其中可以对 IT 和信息通信技术厂商的产品、服务、能力和策略以及当前和未来的市场成功因素进行有意义的比较。该框架还为技术买家提供了针对当前或潜在厂商的 360 度优劣势评估,为技术买家提供参考。
腾讯QQ大数据
2024/08/05
2140
腾讯云位居 IDC MarketScape 中国实时湖仓市场“领导者”类别
专访李潇:数据智能平台,AI 时代的 Lakehouse 架构
在过去十年里,随着公有云的崛起、数据激增和人工智能的兴起等浪潮席卷,整个数据架构经历了巨大的变革和更新。这些激变使得数据架构发生了天翻地覆的变化。作为一家领先的大数据处理平台提供商,Databricks 一直扮演着引领者的角色。
深度学习与Python
2024/01/23
3380
专访李潇:数据智能平台,AI 时代的 Lakehouse 架构
在re:Invent 2022大会上,我们看到了云计算的未来
AI 圈里很多人都听说过开源 AI 作画扩散模型 Stable Diffusion,见识过 AI 图片横扫朋友圈。最近大模型兴起除了造梗图之外,应用前景也在逐渐清晰,AIGC(人工智能生成内容)成为了众多科技公司正在尝试的领域。
机器之心
2022/12/16
5680
在re:Invent 2022大会上,我们看到了云计算的未来
如何构建智能湖仓架构?亚马逊工程师的代码实践来了 | Q推荐
数据仓库的数据体系严格、治理容易,业务规模越大,ROI 越高;数据湖的数据种类丰富,治理困难,业务规模越大,ROI 越低,但胜在灵活。
深度学习与Python
2021/12/02
1.1K0
如何构建智能湖仓架构?亚马逊工程师的代码实践来了 | Q推荐
湖仓一体会成为企业的必选项吗?| Q推荐
作为一种新兴架构,湖仓一体在扩展性、事务性以及灵活度上都体现出了独有的优势,也正因如此,无论在技术圈还是资本圈,湖仓一体都受到了前所未有的关注度。
深度学习与Python
2022/03/23
3140
湖仓一体会成为企业的必选项吗?| Q推荐
腾讯云大数据与头部寿险“湖仓一体”实践荣获“金鼎奖”
7 月 21 日,2024 中国国际金融展闭幕式暨“金鼎奖”颁奖仪式在北京国家会议中心举办。腾讯云凭借其保险行业基于腾讯云大数据构建湖仓一体方案的实践,荣获年度“优秀金融科技赋能业务创新案例奖”。
腾讯QQ大数据
2024/07/29
2070
腾讯云大数据与头部寿险“湖仓一体”实践荣获“金鼎奖”
推荐阅读
相关推荐
数据湖十年风雨路,AWS缘何脱颖而出
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档