腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1117)
视频
沙龙
1
回答
ADF
映射
数据流
-
重用
单个
正在
运行
的
spark
集群
并行
执行
映射
数据流
、
、
我们在
ADF
中有一个复杂
的
ETL,通过
数据流
活动
运行
多个管道,以基于表依赖关系在数据仓库中加载多个表。作为
运行
具有相互依赖关系
的
多个管道
的
结果,几个
数据流
被作为一些顺序
运行
和一些
并行
运行
的
混合来
执行
。看起来每个
并行
运行
的
数据流
都会产生一个新
的
spark
<em
浏览 11
提问于2020-08-28
得票数 0
回答已采纳
1
回答
多个
数据流
与一个转换中
的
所有转换
、
您好,我是Azure数据工厂
的
新手,并不完全熟悉后台
运行
的
后端处理。我想知道,与将所有转换都放在一个
数据流
中相比,
并行
运行
两个
数据流
是否会对性能产生影响。我
正在
尝试使用not exists转换暂存一些数据。我必须对多个表
执行
此操作。当我测试
并行
运行
两个
数据流
时,两个
数据流
的
集群
同时出现。但我不确定这是否是将表
的
浏览 20
提问于2019-10-18
得票数 0
1
回答
是否有方法在多个
映射
数据流
中
重用
单个
正在
运行
的
databricks
集群
?
、
在我们
运行
映射
数据流
并在所有
数据流
中使用相同
运行
的
集群
之前,是否有一种方法
重用
由web活动启动
的
databricks
集群
,而不是让所有
数据流
实例旋转它们自己
的
集群
,这需要大约6分钟
的
时间来设置每个
集群
?
浏览 5
提问于2020-02-03
得票数 4
回答已采纳
1
回答
用于excel文件处理
的
Databricks/
ADF
/ Azure函数
、
、
、
我没有几个excel文件需要是processed..either,将它们发送到一个基于前提
的
sql数据库或输出更结构化
的
csv文件。这些文件可以
运行
到100 and,并且有多个工作表。表格和数据是动态
的
。有些文件可能会或不会得到一些工作表。列也是相同
的
。此外,每个文件都有一个数据字典表,用于解释结构(工作表和相应
的
列)。 这肯定不能仅仅通过
ADF
中
的
简单复制活动来处理。我
正在
考虑使用
ADF
与Databricks一起编
浏览 20
提问于2022-03-20
得票数 0
2
回答
ADF
管道中
数据流
与SQL存储过程
的
映射
、
、
、
我有一个需求,需要在
ADF
管道中
映射
数据流
与SQL存储过程之间进行选择,以实现一些业务场景。现在
的
数据量并不太大,但在稍后阶段可能会变大。我
的
所有业务需求都可以很容易地通过SP实现,但是考虑到
数据流
在下面
运行
,并且可以根据需要进行扩展,所以有一点倾向于
映射
数据流
。
ADF
映射
数据流
在
ADF
管道中使用时是否优于SQL存储过程?我对
映射
数据流<
浏览 7
提问于2020-09-15
得票数 3
1
回答
ADF
复制活动在
映射
中强制数据类型为字符串。
、
、
我
正在
尝试将属性数据类型强制为带有
ADF
复制活动
的
字符串。例如,我希望将'name‘属性强制为字符串,而不是类型'any’。对于复制活动,我可以强制
执行
这种类型
的
映射
吗?我被迫使用复制活动,因为我使用S3作为我
的
源。我知道这种类型
的
映射
可以在
ADF
中使用
数据流
强制
执行
,但是<em
浏览 2
提问于2022-01-17
得票数 0
2
回答
如何与数据工厂一起使用Azure上
的
火花来加载和转换包含数据
的
2个文件
、
、
我是非常新
的
火花以及数据工厂资源在Azure。 有人能帮我做到这一点吗?
浏览 0
提问于2021-09-08
得票数 1
回答已采纳
1
回答
Azure数据工厂中
的
缓存查找属性
、
、
、
、
我有一个需求,在其中我有一个源文件,其中包含
映射
数据流
中
的
表名。基于文件中
的
表名-需要一个动态查询,其中列元数据以及其他一些属性从数据字典表中检索并插入到不同
的
接收器表中。由于输入文件中可以列出多个表(假设它是一个csv,其中只有一个列包含表名),如果我们决定为该文件使用缓存接收器:根据此表名限制来自元数据表查询
浏览 0
提问于2021-03-05
得票数 0
1
回答
基于Azure数据工厂
的
管道烟度测试方法
、
我有-前提Server>
ADF
->存储->
ADF
->Azure SQL管道。我用
的
是Azure DevOps。
ADF
管道每晚
执行
,如果存在
ADF
监视器显示错误。我想知道是否存在
ADF
或其他框架,用于在功能测试之前进行特定
的
烟雾测试等等。
浏览 6
提问于2021-11-01
得票数 0
回答已采纳
2
回答
是否可以通过参数向md5函数传递列
的
动态列表
、
、
、
在Azure Data Factory v2中,我调用了一个来自管道
的
映射
数据流
。
数据流
中
的
源和宿连接是参数化
的
,因此我可以对多个源/目标组合
重用
管道/
数据流
。但是,我想在
数据流
中创建一个派生列,它是特定源/目标组合
的
适当列
的
md5散列。因此,我希望将列
的
列表传递给md5()函数,它可以在
数据流
运行
时进行计算,并且可
浏览 4
提问于2019-10-30
得票数 2
1
回答
从3中更改默认
的
HDFS复制因子是否会影响
映射
程序
的
性能?
、
有一个HDFS/Hadoop
集群
设置,并且
正在
考虑调优。有人有什么意见吗?
浏览 0
提问于2011-06-29
得票数 2
4
回答
在蔚蓝数据工厂
执行
数据检查
、
我有和
ADF
管道,它从copies源读取数据,并将其复制到数据集中。我想做一些数据检查: 如果特性全部为空,则如果上述条件不满足,则应失败。是否有一种方法可以在数据工厂中不使用批处理服务和仅在数据工厂中进行活动,或者不使用
数据流
。
浏览 13
提问于2022-03-21
得票数 1
回答已采纳
1
回答
Azure数据工厂
运行
时在
运行
数据流
时看起来有所不同
、
我
正在
尝试Azure数据工厂V2。我
运行
一个DB提取并将输出汇聚到Blob中。当我使用DataFlow时,生成
的
文件被分成几个部分,就像在
Spark
output样式中一样。这是因为
Spark
集群
是
运行
时(我假设)。然而,当我
运行
“普通”管道(无
数据流
)时,输出似乎是不同
的
,例如,输出甚至可以是
单个
文件。所以我
的
问题是:流水线和
数据流
在
运行
时有区
浏览 13
提问于2020-06-24
得票数 0
回答已采纳
1
回答
SSIS平面文件连接器不工作
我在设置
的
每一个平面文件连接器上都会得到以下错误。平面文件连接器是在
数据流
任务中从ADO.NET设置
的
。
数据流
任务SSIS.Pipeline错误:一个或多个组件验证失败。
数据流
任务中
的
错误:在任务验证期间
浏览 1
提问于2013-05-16
得票数 2
回答已采纳
1
回答
数据流
活动Azure数据工厂中
的
并发文件处理
但是,当阅读以下来自微软()
的
文章中有关
数据流
的
内容时,它们指出如下:通过使用通配符,管道将只包含一个
数据流
活动。这将比针对Blob
的
查找
浏览 2
提问于2020-05-19
得票数 1
回答已采纳
1
回答
是否有可能在
单个
数据文件上
并行
运行
多个聚合作业?
、
、
、
有没有任何方法可以
并行
地在
单个
RDD上
运行
多个独立
的
聚合作业?第一个首选是Python,然后是Scala和Java。按优先次序排列
的
行动方案如下:
浏览 2
提问于2016-06-25
得票数 0
1
回答
Azure数据工厂,如果条件比完成内部活动花费
的
时间长得多
、
好吧,伙计们,这太奇怪了,我看不出有什么明显
的
东西能解释. 有人知道这意味着什么吗?是什么原因造成
的
?注意..。IF条件本身只是对以前设置
的</e
浏览 0
提问于2021-06-02
得票数 2
回答已采纳
1
回答
SSIS:多个源到1个目的地
、
、
、
、
我已经找到了一些答案,但它们是相反
的
,围绕一个数据源和多个目的地,但我似乎找不到我
的
答案。从底部你可以看到我现在是怎么做
的
。我希望有人能给我指明正确
的
方向。
浏览 0
提问于2019-03-23
得票数 1
回答已采纳
1
回答
synapse管道中
的
DF-Executor-OutOfMemoryError
、
、
、
、
我有一个来自ravenDB
的
json,它不是有效
的
json,因为它有重复
的
列。因此,我
的
第一步是清理json,如果有重复
的
文件,为每个文件创建单独
的
json。我可以在示例文件中这样做,它
运行
成功,然后我尝试一个12MB
的
文件,它也可以工作。但是当我尝试一个10 DB大小
的
完整数据库备份文件时,它给出了错误。作业失败,原因是:群集在
执行
过程中遇到内存不足问题。另外,请注意
数据流
有一个或多个自定义分区方
浏览 12
提问于2021-11-09
得票数 1
1
回答
我们能把数据库中
的
表和Azure Delta湖中
的
Delta表连接起来吗?我有什么选择
、
、
、
、
我将旧
的
行作为增量表归档到ADLSv2中,当需要报告这些数据时,我需要将存档
的
数据与一些存在于前提数据库上
的
表连接起来。有没有一种方法,我们可以做一个连接,而不需要再水化或水化数据云?
浏览 10
提问于2022-03-22
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从Storm到Flink:大数据处理的开源系统及编程模型
Spark 运行架构以及常用组件
你究竟知不知道大数据开发的工具有哪些?
大数据工具是什么?有哪些大数据工具?
Spark计算详解
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券