湖仓一体数据平台架构

湖仓一体数据平台架构是一种数据处理和存储的解决方案，它将数据湖和数据仓库的特点结合在一起，以提供更高效、灵活和可扩展的数据处理能力。湖仓一体数据平台架构的主要特点包括：

数据湖是一种将非结构化和半结构化数据存储在一起的方法，它可以存储大量的数据，并且可以轻松地进行扩展和更新。数据湖通常使用大数据技术和分布式存储系统来实现。
数据仓库是一种将数据组织成结构化的方式，以便进行复杂的查询和分析。数据仓库通常使用关系型数据库和ETL（抽取、转换、加载）工具来实现。
湖仓一体数据平台架构将数据湖和数据仓库结合在一起，以提供更高效、灵活和可扩展的数据处理能力。它可以处理大量的非结构化和半结构化数据，并且可以轻松地进行扩展和更新。同时，它还可以使用关系型数据库和ETL工具来实现复杂的查询和分析。
湖仓一体数据平台架构的优势包括更高效的数据处理能力、更灵活的数据存储和分析能力、更快的数据检索和查询能力以及更好的数据安全性和可扩展性。
湖仓一体数据平台架构的应用场景包括大数据分析、数据挖掘、实时数据处理、数据可视化和数据治理等。
推荐的腾讯云相关产品和产品介绍链接地址：
- 腾讯云数据湖：https://cloud.tencent.com/product/dl
- 腾讯云数据仓库：https://cloud.tencent.com/product/dw
- 腾讯云数据分析：https://cloud.tencent.com/product/dana

以上是关于湖仓一体数据平台架构的全面答案，包括概念、分类、优势、应用场景和推荐的腾讯云相关产品和产品介绍链接地址。

页面内容是否对你有帮助？

有帮助

没帮助

Azure数据工厂使用接收器Datalake复制数据架构映射

、

我有一个简单的管道，带有复制数据。我正在尝试将数据从sql拉到数据湖中。我已经创建了两个数据集，一个用于sql，另一个用于datalake。 dataset中定义的数据湖模式在我们运行管道时被覆盖，列具有字符串数据类型。我尝试在这里更改模式数据类型，在运行管道之后，它们在datasets中被覆盖。 Schema Mapping in CopyData DataSet Schema definition

浏览 28提问于2019-12-09得票数 1

1回答

支持数据湖设置的服务

、、、、

我必须测试和比较可用的解决方案来创建一个数据湖。除了AWS湖的形成之外，还有其他服务可以轻松地建立一个安全的数据池吗？我知道我可以在Azure和Google平台上创建一个帐户，但是我不知道他们是否有任何我需要的解决方案的“包”，或者帮助我建立数据湖的服务。

浏览 1提问于2019-05-09得票数 0

回答已采纳

1回答

链接服务的Azure批处理支持

、、

我使用的数据工厂管道具有一个自定义活动(配置为在Azure批处理上运行)，该管道具有数据湖存储、输入数据集和输出数据集。数据湖存储链接服务使用服务来服务auth (服务主体)，并且在通过复制向导在复制活动中使用时工作得很好。但是，当与试图检查文件是否存在于数据湖中的自定义活动一起使用时，该活动会失败，并出现“需要授权”的错误。当使用Azure Blob Store作为输入和输出数据集时，相同的自定义活动可以正常工作。似乎是Azure批处理(Compute节点)无法授权的问题。如果您已经解决了上述问题，请提供帮助。

浏览 3提问于2017-04-11得票数 1

回答已采纳

7回答

Hadoop Vs数据湖

、、

我听说了数据湖这个新名词。我在谷歌上查到了数据湖是一个大规模的存储库和处理引擎.数据池提供“任何类型的数据的大量存储、巨大的处理能力和处理几乎无限并发任务或作业的能力”。术语数据湖通常与面向Hadoop的对象存储相关联。在这种情况下，组织的数据首先加载到Hadoop平台，然后将业务分析和数据挖掘工具应用于其驻留在Hadoop的商品计算机集群节点上的数据。 Hadoop也做了同样的事情。我们有存储的HDFS和用于计算的MapReduce。我对Hadoop和数据湖有点困惑。两者之间的区别是什么。如果它们是相同的，为什么会出现这个词。或者如何定义数据湖。

浏览 8提问于2016-03-14得票数 16

1回答

数据湖:数据目录和数据模式定义

、、、

我试图理解数据目录和数据模式的定义。在我读了几篇文章之后，我变得更困惑了！我意识到，当这篇文章谈到数据湖时，这个术语将被用来将data catalog描述为containing metadata information within data lake。与名称一样明显，它是数据池中所有信息的目录。现在，据我所知，数据目录是数据库。而data schema被描述为containing metadata information within a database。这意味着数据湖中的data catalog等于数据库中的data schema。两者似乎具有相同的目的，如数据发现。但术语在不同的

浏览 0提问于2020-02-07得票数 0

1回答

有人能解释一下Delta湖的“黄金”表是如何推送到数据仓库的吗？有没有办法从增量格式转换成数据帧？

、、

我试着从铜牌，银牌，金牌来理解德尔塔湖的数据流结构。Gold应该用于商业用途，并准备好通过数据仓库或某些报告服务来摄取。(我的理解对吗？)我的问题实际上是一个更深入的数据生命周期，通过摄取增量湖，直到将这些“黄金”表导出到数据仓库。谢谢!

浏览 17提问于2020-03-11得票数 4

2回答

测试Hadoop到Teradata

、、

我想测试和teradata表之间的流。问题是我对这些技术很陌生。数据湖是我的数据仓库的数据源。我读过关于QuerySurge的文章，但是我想知道是否可以创建自己的脚本来测试流。

浏览 3提问于2015-11-20得票数 0

回答已采纳

1回答

更改数据集的显示方式

、

我查看了前面的问题，但没有找到我可以在这里应用的东西‘我有几个与自动分配设备相关的垃圾桶。在PLC触发器上，我正在将特定bin的某些属性的值记录到一个表中。这是Wonderware报警和事件数据库，因此对于要保存的每个属性，都会生成一个条目。每个条目都带有相同的时间戳： [ EventStamp，TagName，描述，值，，， 03/05/21 08:24:30.950，C_Bin_M621_02.C_Al_Bin_Slow_Setting，碳日志仓慢设置，221，，， 03/05/21 08:24:30.950，C_Bin_M621_02.C_Al_Bin_Weigh_Time，碳对数仓称重

浏览 1提问于2021-03-06得票数 0

1回答

SaaS应用程序数据摄入到DL/DWH -什么包括在NFR中？

、、、、

我们正在为繁忙的销售业务购买SaaS解决方案。我们希望确保我们有能力访问我们的数据，并且将其摄入到我们的分析数据湖(一些实时的)中。我正在寻求关于供应商和他们的解决方案我们应该有哪些要求/更喜欢什么的建议？ API-大多数供应商都提到他们提供了用于数据访问的API，但是需要哪些特性API才能适合将数据摄取到Analytics？中。例如，Salesforce有批量API，这是否意味着如果供应商只提供“精益API”，它们就不能用于DL用例吗？直接SQL Access -我们是否更喜欢提供单一租户DB 的SaaS解决方案，以便我们能够获得直接的SQL访问？DB副本-我们是否应该期望供应商提供DB副

浏览 7提问于2021-10-13得票数 0

回答已采纳

2回答

在Matplotlib中绘制的列表的移位x值

、、

在对列表(大小为1024)执行快速傅立叶变换和FFTShift之后，我现在正在尝试绘制输出。在尝试以我想要的方式准确地显示数据时，我遇到了一些问题。当前，x轴显示仓位编号。在FFT移位之后，频率0 Hz处于仓位编号512，并且每个仓位值额外的2000/1024 Hz，因此仓位0应为-1000 Hz，仓位1023应为+1000 Hz；仓位1应为-998.05 Hz，仓位1022应为+998.05，依此类推。我尝试过使用xticks来显示以下内容： xlocs, xlabs = plt.xticks() plt.xticks([0,(len(a)*0.25),(len(a))/2,(

浏览 0提问于2012-11-16得票数 1

回答已采纳

1回答

Azure事件中心在哪里存储他们所摄取的数据？

、、、

刚刚完成了一门课程的MVA“手与Azure流分析”。但不知何故，它没有明确的概念，事件中心如何存储数据，或它存储的数据，无论是BLOB存储还是数据湖，或者我们可以改变这种类型的存储它的做法。

浏览 2提问于2017-04-13得票数 0

回答已采纳

1回答

将所有数据库从源加载到ADLG2(蔚蓝数据湖gen2)

、、、

是否有办法按原样将所有数据库从源Server加载到数据池？我试着用他的表加载每个数据库，但我想问是否有一种方法可以像加载到数据湖那样加载所有的数据库。

浏览 7提问于2022-11-16得票数 0

1回答

在Azure Dataflow中存储文件名时出错吗？

、、

我在数据湖中得到一个excel文件，并使用ADF中的Dataflow将excel文件导出到Azure SQL数据库中。我需要将文件名作为列存储在我的数据中。我现按以下步骤行事：我在列中指定了名为"filename“的列名来存储文件名部分。我能够在投影和检查部分看到整个列和我的新列“文件名”。但是，当我试图查看预览数据时，我将得到以下错误不知道有什么问题吗？我更改了列名，但没有成功。有人能告诉我问题出在哪里吗？

浏览 2提问于2022-02-28得票数 0

1回答

在SQL Server中访问Azure表存储

、、

我正在尝试从Azure SQL Server访问第2代数据湖中的Azure表存储，但是我找不到任何文档。加载如何在blob存储中访问csv，而在Azure表上没有加载。有什么想法吗？约翰

浏览 12提问于2022-02-22得票数 -1

1回答

直方图--与断点相等的数据

、

R中的默认直方图柱是右闭合(左开)间隔，因此与断点相等的数据落入左柱。我想知道是否可以将这些数据同时计算到左边和右边的箱子里(一半在左边的箱子里，一半在右边的箱子里)。非常感谢!

浏览 3提问于2014-05-18得票数 1

3回答

如何将数据从AWS S3加载到Snowflake Internal Stage

、

我们正在尝试从亚马逊网络服务S3 (外部阶段)获取数据，并将其加载到雪花内部阶段。Snowflake应该作为我们的数据湖，可以减少我们从AWS使用的存储量。有没有内置的功能可以从外部stage -->内部stage传输数据？目标是将数据加载到内部Snowflake阶段，然后从AWS中删除数据。我们希望Snowflake成为数据湖。

浏览 49提问于2020-07-28得票数 0

1回答

json文件向三角湖的动态模式演化

、、、

我正在建立一个三角洲湖，我正在努力将我的json数据加载到三角洲湖。我们有100种不同的json文件格式。都存储在一个数据湖里。现在，我试图避免编写100种不同的python笔记本，而是构建一个元数据驱动的笔记本，它应该能够处理所有不同的json格式。我能得到第一批数据进入三角洲湖，到目前为止还不错。问题是，当我将第一个json文件加载到特定的增量-湖泊表时，列中的值为空。然后写到增量湖自动创建此列为字符串。下一个文件在同一列中包含一个嵌套的json数组，结果是我得到了以下错误消息： AnalysisException:未能将字段“payment_info”和“payment”合并。未能合

浏览 2提问于2022-02-05得票数 0

2回答

Azure数据工厂复制活动JSON数据类型转换问题

、、、、

我有一个azure数据工厂管道，用于从第三方API获取数据，并将数据以.json格式存储到数据湖中。当我单击导入模式时，它会显示正确的数据类型格式。 ? 当我将上面提到的data-lake设置为数据流活动的源时，Int64数据类型转换为boolean。我已经检查了Microsoft文档，知道如果值是0或1，它会自动转换为布尔值。如何避免这种数据类型转换？ ?

浏览 55提问于2020-07-18得票数 0

回答已采纳

1回答

和Delta层会让它成为湖屋吗？

、

即使经过很多资源，我也不明白什么是湖房，所以我想问一问。如果我们有Azure Gen 2存储、ADF和Azure数据库，可以将传入的CSV文件转换为Delta表，可以称为"Lakehouse“体系结构，还是称为"Delta Lake"？或者是"SQL分析“引擎在Delta湖层之上使它成为了"Lakehouse"？请澄清。

浏览 0提问于2021-06-18得票数 1

回答已采纳

1回答

用参数化动态源映射Synapse数据流需要动态导入投影

、、、

我正在尝试构建一个云数据仓库，在那里我已经把on表作为数据湖中的拼花文件。我实现了元数据驱动的增量负载。在上面的数据流中，我试图实现合并查询，传递表名作为参数，以便数据流动态定位完整数据和增量数据各自的parquet文件，然后经过一些ETL步骤来实现合并查询。合并查询运行良好。但我发现投影是不正确的。由于源文件是动态的，我还希望在运行时动态地“导入投影”。以便可以使用相同的数据流来实现对任何表的合并查询。在图中，您可以看到它显示了104列(这是它在开发时导入的静态投影)。实际上，对于这个表，它应该是38列。我可以动态地(即运行时)分配投影吗？如果是的话，怎么做？或者有人对此

浏览 7提问于2022-02-22得票数 1

1回答

使用Azure数据工厂生成的拼图-无法在配置单元中创建表

、、、

从Azure Data Factory生成拼图文件(复制活动-从Azure SQL复制到数据湖中的拼图)。当我尝试从蜂窝中读取相同的拼图时，它给出了错误，因为org.apache.parquet.io.ParquetDecodingException:无法读取块中0的值。如果你使用Spark生成拼图，那么你可以设置Spark.sql.parquet.writeLegacyFormat=true，但是如何在Azure Data Factory中处理同样的事情。十进制转换的问题即将到来

浏览 0提问于2021-07-02得票数 0

2回答

数据流按列值分区不向每个文件夹写入唯一的列值

、、、

我正在读取一个SQL DB作为源，它输出下表。 ? 我的意图是使用数据流将每个唯一的类型保存到一个数据湖文件夹分区中，该分区可能被命名为特定类型。我设法创建了单独的文件夹，但我的数据流将包含所有类型的整个表保存到每个文件夹中。我的数据流 ? 来源 ? 窗户 ? ? 水槽 ? ? 有什么想法吗？

浏览 16提问于2021-03-24得票数 1

回答已采纳

2回答

无法理解matplotlib pyplot直方图

、、、

我只是在学习数据分析的一些基础知识。我有一个简单的csv数据文件，如下所示。 START,FIRST,SECOND,ITEM 1,100,200,A 2,100,200,B 2,100,300,C 2,200,300,D 3,200,100,E 3,200,100,F 3,200,100,G 3,200,100,H 3,200,100,I 3,200,100,J 我编写了这个小程序来读取这个csv文件，然后使用matplotlib为三列START、FIRST和SECOND打印一个直方图。我还打印了第一列和第二列的散点图。 #!/exp/anaconda3/bin/python3 import

浏览 1提问于2020-10-10得票数 0

2回答

卡夫卡沉入无汇流数据湖存储

、

我试图找到开源卡夫卡的选择，直接写到Azure数据湖存储Gen2。我似乎没有什么选择，主要是在汇合点周围盘旋，如下所示：使用融合云与Apache需要订阅合流和付费( ) 使用Azure VM与汇流集线器安装汇流平台目前，我不愿意支付合流许可，也不想测试合流包(越来越多的包装和箍) 是否可以使用开源卡夫卡直接将数据写入ADLS Gen2？如果是，我们如何实现这一点，任何有用的信息共享？

浏览 4提问于2021-06-08得票数 1

2回答

需要将Grafana与Azure数据湖集成的解决方案

、、

我想将Azure数据湖存储与Grafana集成起来，以实现时间序列数据的可视化。我需要知道我可以使用哪些工具来使其成为可能。我使用ADF从数据湖中存储的csv文件中提取数据，并移动到Azure数据资源管理器中的一个表中。在那之后，我使用了grafana中的Azure data explorer插件来进行可视化。它工作得很好。但我需要知道有没有其他更好或更具成本效益的方法。

浏览 0提问于2019-07-04得票数 0

1回答

Azure权限-扫描文件类型

、、

我们正在扫描一个Azure数据湖(第2代)。在扫描结果中，我们得到了一些我们不希望出现在资产寄存器中的文件--例如，如下所示的配置文件(.wmk)。是否有任何方法隐藏某一类型的所有文件？我查看了扫描规则，以查看自定义规则是否有效，并且文件类型(.wmk)没有作为扫描目标列出，但是它确实出现在资产寄存器中。类似于数据湖文件夹，我们只希望看到资源集，而不希望看到资产中的文件夹。有什么办法防止他们出现在资产中吗？

浏览 3提问于2021-06-16得票数 1

回答已采纳

2回答

类图应该表示特定的框架吗？

、、、、

我知道框架提供了有用的接口和类，可以在实现阶段节省大量时间，所以我的问题是：框架接口和类是否应该包含在我的项目的类图设计中？如果是的话，如果我决定在将来更改框架，这会影响设计的可重用性吗？

浏览 3提问于2017-04-29得票数 1

回答已采纳

1回答

在运行时可能会发生哪些与Azure数据服务相关的各种错误/问题？

、、、、

我正在尝试使用预测-预防异常检测和解决模型，对于该模型，我想列出所有影响Azure数据服务(数据湖、数据工厂等)工作的错误/参数，并可能导致服务失败，即那些可能在未来发生的问题，例如容器大小达到其最大限制，或任何此类问题。我已经尝试过Microsoft文档和与每个特定服务相关的文章中列出的大多数问题/错误，但它们都属于反应性维护(反应性异常检测和解决)。

浏览 8提问于2021-11-16得票数 0

1回答

云服务器如何配置访问外网？

、、、、

开发用到的数据库是Google的数据库，目标市场也是国外，刚买的云服务器无法连接外网，有没有方法可以解决，如果没办法解决，这个服务器就不能用了，有高手知道怎么解决吗，可以用VPN吗？

浏览 75提问于2024-05-16

1回答

如何使用python对azure-data-lake中的文件应用elasticsearch？

、、

我在gen1中用python上传了azure data lake中的文件。这些文件存在于azure数据湖中，我需要对这些文件应用弹性搜索(这些文件可以是.pdf、.csv、.xlsx、.doc)。使用python django。

浏览 1提问于2019-10-17得票数 0

1回答

如何在模拟器上启动AR应用程序？

、、、、

我正在开发一个使用统一的AR应用程序，但是我没有android手机，所以我决定在模拟器上工作，我阅读了关于它的所有文档，但是它没有工作。该应用程序已安装，但当我打开它时，我看到一个带有立方体的黑色屏幕，用于测试它是否正常工作，虚拟场景没有打开，你有什么解决方案吗？我尝试了所有的解决方案，但没有一个对我有用。注意:我安装了一个来自google play的AR应用程序，但是它崩溃了。 specifications:mobile:像素3aAndroid版本:11(30个API)。Android Studio version:(4.1.1).Ar foundation:4.1.9.ARCore XR

浏览 2提问于2022-02-28得票数 0

0回答

benchamarksql做mysql的TPCC测试1000仓数据报错？

、、、、

benchamarksql做TPCC测试1000仓数据并发任意数报行锁等待错误： image.png props.mysql配置信息如下： image.png 做100仓测试并发1000都不会有问题，麻烦请教下大佬们这个有啥解决办法？

浏览 473提问于2020-08-10

1回答

Kappa体系结构是否使用数据湖？

、、、、

Kukreja在“Apache、Delta湖和Lakehouse的数据工程”中说，Kappa体系结构没有数据湖。微软在 (见图)中提到了一家“长期商店”，但没有透露它的实际情况。它使用这些数据来“重新计算”。对我来说，这是一个数据湖。 Kappa体系结构是否使用数据湖？

浏览 10提问于2022-07-21得票数 0

回答已采纳

1回答

是否有可能用像mongodb这样的数据湖或普通数据库来替换Kafka的功能？

、、

作为一名初级数据工程师，我希望能确切地理解为什么我们需要卡夫卡。我假设Kafka是一个消息队列程序，充当数据生成和消费系统之间的中介。那么，为什么我们不能仅仅使用一个正常的数据库或数据湖作为中央存储，让它充当系统之间的代理呢？

浏览 13提问于2022-08-01得票数 0

1回答

是否跟踪数据池中数据的更改？

、、

最近我发现了数据湖世界，我计划用ADL建立一个数据湖。我不确定的一件事是数据湖应该如何跟踪随时间变化/处理与源不同版本的更改。我遇到过这样的站点，声称数据湖按原样提供数据，其他状态是数据应该是时间戳，或者文件夹结构应该反映时间戳。不管怎样，有什么最佳做法吗？干杯!

浏览 0提问于2019-07-24得票数 0

回答已采纳

1回答

如何从Azure数据湖转换，将数据按日期文件夹分区到delta湖

、、、

我拥有一个由datetime嵌套文件夹划分数据的蔚蓝数据湖gen2。我想向我的团队提供增量湖格式，但是我不确定我是否应该创建一个新的存储帐户，将数据复制成增量格式，或者将当前的蔚蓝数据湖转换为增量湖格式是否是最佳实践。有人能提供关于这件事的任何建议吗？

浏览 2提问于2022-08-09得票数 0

回答已采纳

1回答

数据库Delta表模式失配

、、、、

假设我使用以下模式创建了一个外部Delta表 product_cd :整数 product_dsc: VARCHAR(128) 我插入了一些数据，然后，出于任何原因，我决定在保留数据的同时删除元数据。当我试图重新创建该表时，我会得到一个模式不匹配错误，它说product_dsc是一个字符串。这件事已经折磨了我好几天了。我读过一些关于德尔塔湖模式执行和发展的文章，不过我现在比刚开始的时候更困惑了。另一件奇怪的事情是，我无法向VARCHAR抛出火花数据栏。在解决上述问题时，我尝试过这样做，但没有结果。spark似乎根本不希望我使用VARCHAR数据类型。这让我很困扰，因为在

浏览 6提问于2022-08-11得票数 0

2回答

如何使用数据工厂截断Dynamics 365实体(并复制到Azure数据湖)？

、、、、

我目前正在使用数据工厂将实体从Dynamics 365批量复制到Azure数据湖。实体每24小时保存为数据湖中的CSV文件。我希望将实体截断为新数据，并附加到数据湖中已经存在的文件中，而不是批量复制。我认为这是SQL数据库的常见操作，但这可以在Dynamics 365和数据湖之间完成吗？

浏览 14提问于2019-05-01得票数 1

2回答

关于三角洲湖的困惑

我试着阅读了很多关于databricks delta lake的资料。据我所知，它为您的数据存储增加了ACID事务，并通过增量引擎提高了查询性能。如果是这样，为什么我们还需要其他不支持ACID事务的数据湖呢？Delta lakes声称将数据湖和数据仓库这两个世界结合在一起，我们知道，由于它目前对操作的支持，它还不能取代传统的数据仓库。但它应该取代数据湖吗？为什么需要两份数据副本-一份在数据湖中，另一份在德尔塔湖中？

浏览 21提问于2020-07-30得票数 0

回答已采纳

2回答

数据湖中的数据保留策略

我是这个Azure数据湖世界的新手。我正在寻找任何必要的先决条件和注意事项，以便使用蔚蓝数据湖.我找到了一个很好的链接，并发现安静有用。现在，我不确定的一件事是数据保持策略在数据湖中。有些人说数据不应该从数据湖中删除/清除，而很少有人有不同的看法。因此，在任何数据湖中，对于数据保留策略(归档、清除)，我们是否需要遵循特定和基本的考虑？我知道用例将是这方面的决定因素，但在作出决定之前，是否有任何高层次的考虑因素，是我的问题。谢谢,

浏览 1提问于2017-02-19得票数 2

回答已采纳

1回答

基于M1苹果硅支持的DynamicSDKv9.1-M1模拟器

、、、、

DynamicsSDKv9.0.x的提到M1 Mac不支持iOS模拟器。在苹果M1设备上，SDK不支持在iOS模拟器上构建和调试BlackBerry Dynamic应用程序。作为一种解决办法，您可以在物理iOS设备上构建和调试。在 for DynamicsSDKv9.1.x中，没有提到M1 Mac。这现在支持吗？如果是这样的话，除了通常升级SDK之外，是否还需要任何特殊的配置？我已经将SDK升级到了v9.1.x，但是在为iOS模拟器构建时，我遇到了iOS错误。 MacOS 11.2.3 Xcode 12.4 编辑:在Rosetta下运行Xcode似乎很好。但仍然期待

浏览 7提问于2021-04-20得票数 0

回答已采纳

2回答

从数据湖中检索数据到分析系统

、、

我们在Hadoop文件系统中创建了一个新的数据湖。数据以ORC的形式存储。目前分析系统直接连接到数据湖来读取这些ORC文件。有没有办法在数据湖和分析系统之间创建一个中间层来服务数据？

浏览 16提问于2018-10-04得票数 0

2回答

使用数据湖分析复制数据- U-SQL

、、

我有以下问题。我需要从ADLS(Azure数据湖存储)源复制到接收器ADLS，但只复制最新的文件。每小时，到达源的一个.csv文件，这个文件必须被复制到宿数据湖。例如： event: Hour1 - file_01.csv到达源。任务:复制file_01.csv以接收数据湖。event: Hour2 - file_02.csv到达源。任务:复制file_02.csv以接收数据湖。诸若此类。有没有办法创建一个基于事件的触发器(新文件到达源代码)？这是我的第一个想法。另一种方法是创建一个作业，由Azure Data lake analytics运行。在那里我会提取系统的日期和时间(我不知道怎么

浏览 2提问于2018-04-23得票数 0

3回答

数据湖中的桌子有什么意义？

、

我认为使用数据湖( Data )与数据仓库()的全部目的是将ETL (提取、转换、加载)过程转换为让(加载、提取、转换)。难道提取这些数据，将其转换并加载到一个表中，就能让我们回到我们开始的地方吗？

浏览 7提问于2017-10-16得票数 5

回答已采纳

2回答

如何使用Azure作为Azure ML的输入数据集？

、

我正在移动数据到Azure数据湖存储和处理它使用Azure数据湖分析。数据是XML格式的，我正在通过读取它。现在，我想从Azure中访问这些数据，看起来Azure数据湖存储目前还不受直接支持。用Azure ML使用Azure的可能方法是什么？

浏览 2提问于2016-03-21得票数 0

回答已采纳

1回答

如何使用azure函数根据azure数据湖存储中收到的文件创建触发事件

、、、

我在Azure数据湖存储中有一个.csv文件，每当.csv文件加载到数据湖存储中时，我是否可以使用函数应用来触发Azure数据工厂(ADF)事件。当前的ADF支持blob存储的事件，但不支持数据湖。谢谢，拉维

浏览 12提问于2019-05-25得票数 0

2回答

列名映射错误。

、、、、

我试图使用azure数据工厂从on数据湖中提取/加载数据到蔚蓝数据湖。我只是想查询一下所有的列。我的水槽是蔚蓝数据湖Gen2。但是我的列名在源和库上都是错误的。我在on-prem数据湖中的列名类似于user_id、lst_nm等，但在Azure中，它就像、等，这里的user_tbl是我的表名。我不希望将表名添加到列中。

浏览 14提问于2022-02-23得票数 0

1回答

Azure Databricks DBFS数据集存储在哪里？

、、

我将数据上传到Azure Databricks，可以看到DBFS列表中有数据集，但在Databricks所属的资源组中找不到任何数据集。数据集存储在哪里？此外，如果我创建达美湖，如何从Azure数据工厂调用Delta湖？我看不出三角洲湖存放在哪里。

浏览 11提问于2022-04-14得票数 0

回答已采纳

3回答

Azure数据湖分析与Azure SQL数据仓库

、、

我正在使用ADF连接到源并将数据放入Azure data Lake存储中。在将数据放入data Lake Store之后，我想做一些转换，聚合，并在SSRS报告中使用这些数据，也用于创建多维数据集。谁能向我推荐哪个是最佳选择(Azure Data Lake Analytics或Azure SQL DW)？我希望在这里做出决定，在数据湖之后选择哪一个。

浏览 0提问于2018-04-10得票数 6

1回答

是否可以从flink作业触发spark作业并从中获取数据？

、、

我正在使用flink从Azure数据湖中读取数据。但flink无法找到Azure数据湖文件系统。我已经实现了spark来读取Azure Data Lake文件系统文件。因此，我尝试从flink中触发火花，从Azure数据湖中读取数据，并执行一些逻辑操作，然后将列表返回给flink。所以flink可以使用这些数据？是否可以从flink触发spark作业？或者如何配置flink来理解Azure数据湖文件系统。有人能在这方面给我指点一下吗？

浏览 2提问于2017-07-11得票数 0