腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
理解
Spark
中
的
阶段
我正在运行pyspark作业,并且在我
的
本地机器上使用pycharm,当我
的
作业运行时,我在控制台中看到以下输出: [Stage 1:========>(9 + 8) / 64] 我感兴趣
的
是(9+8)/64是什么意思?
浏览 21
提问于2020-12-04
得票数 0
1
回答
星火如何管理
阶段
?
我正在努力
理解
如何在
spark
中
定义作业和
阶段
,为此,我现在正在使用我找到
的
和
spark
的
代码。为了在
spark
上看到它,我不得不多次复制和粘贴文件上
的
文本,因此需要更多
的
时间来处理。以下是
spark
的
输出:现在,我知道有三个作业,因为有三个动作,而且这些
阶段
是由洗牌动作产生
的
,但我不
理解
的
是为什么
浏览 4
提问于2016-12-31
得票数 9
回答已采纳
1
回答
映射/减少
阶段
如何在
Spark
中
工作
我来自MapReduce
的
背景,而且我对
Spark
还是个新手。我找不到一篇解释MapReduce和
Spark
之间架构差异
的
文章。到目前为止,我
的
理解
是MapReduce和
Spark
唯一
的
区别是“内存”处理
的
概念。也就是说,
Spark
有映射/减少
阶段
,它们可能在集群
中
的
两个不同节点上运行。具有相同密钥
的
对被转移到相同
的
减
浏览 0
提问于2015-03-10
得票数 0
1
回答
如何在
Spark
中
命名DataFrame以使DAG图更易于阅读?
、
在
Spark
中
,在几次连接之后,DAG图可能会变得非常复杂,例如:有没有办法让它更容易
理解
,第一,命名
Spark
数据集,第二,用它计算(或帮助计算)
的
数据集标记每个
阶段
,以便我们可以追溯到代码
浏览 0
提问于2018-09-25
得票数 3
1
回答
在PySpark中使用推断模式读取csv时,DAG
中
没有交换操作
、
、
、
我正在用下面的代码读取一个csv文件上面的代码是为每个作业创建一个
阶段
的
两个作业。一个用于读取标头
的
工作,另一个用于推断架构。这是我能
理解
的
。作业,即读取模式,只有一个
阶段
,有许多
浏览 5
提问于2022-09-29
得票数 0
回答已采纳
1
回答
Spark
execution -
spark
执行作业和
spark
操作之间
的
关系
我有一个关于火花执行
的
问题。我
的
问题是哪一个是正确
的
-一个作业集合对应于一个动作,还是每个作业对应一个动作。这里
的
job是指可以在
Spark
execution UI中看到
的
作业。谢谢。
浏览 1
提问于2019-10-30
得票数 1
1
回答
spark
中
的
默认混洗分区值
spark
中
的
默认随机分区值是200个分区。我想澄清
的
是,这个数字是每个输入分区?或者在所有输入分区
中
,输出分区
的
数量将是200个? 我看了几份材料,但没有找到我想要
的
答案。
浏览 1
提问于2019-11-03
得票数 0
1
回答
Spark
DAG可视化曾经有过outgoingEdges吗?
、
我正在查看
Spark
UI DAG可视化代码,发现了以下: val fromThisGraph = nodes.containsshould never happen根据我
的
理解
,内部边缘表示
阶段
内RDD之间
的
边缘,传入边缘
浏览 0
提问于2017-06-28
得票数 1
2
回答
Spark
中
整个
阶段
代码生成
中
的
"stage“与
Spark
的
阶段
有什么关系?
、
我一直在探索
Spark
中
的
全
阶段
代码生成优化(也称为全
阶段
编码元),并且一直在想,在“同时
阶段
”中有多少“
阶段
”来自于火花核心对一个
阶段
(一个火花作业)
的
意义?在
Spark
和
Spark
的
全
阶段
代码生成
阶段
之间有什么技术关系吗?还是更广泛地用来指计算
中
的
“
阶段
”?
浏览 2
提问于2017-12-13
得票数 3
回答已采纳
2
回答
如何在Eclipse
中
并行运行火花处理?
、
、
在我
的
开发环境(Eclipse)上尝试应用程序时,我希望使用多个执行器并行运行
Spark
应用程序。似乎火花引擎序列化了所有的任务,并使用一个执行器运行它们。是否有选项可以在Eclipsewithspark.master=local
中
并行运行两个或多个任务?
浏览 1
提问于2014-12-20
得票数 3
回答已采纳
1
回答
在
Spark
中
对DataFrame进行排序时,幕后会发生什么?
在
Spark
中
对DataFrame进行排序时,幕后会发生什么?例如,df.sort(i) 我知道当您将数据读取到DataFrame时会发生什么,但是我很好奇当您排序时会发生什么
浏览 2
提问于2018-08-14
得票数 0
1
回答
写入HDFS时Apache
spark
中
的
任务数
、
我不明白火花是如何决定不同
阶段
任务数量
的
。val c1c8new = { c1c8.
浏览 5
提问于2021-07-21
得票数 0
回答已采纳
1
回答
为什么web用户界面在作业和
阶段
页面
中
显示不同
的
持续时间?
、
我正在运行一个虚拟
的
spark
作业,它在每次迭代
中
执行完全相同
的
一组操作。下图显示了30次迭代,其中每个作业对应于一个迭代。可以看到,除了作业0、4、16和28之外,持续时间始终在70ms左右。第一次加载数据时,作业0
的
行为是预期
的
。 我想知道
Spark
把(2000 - 64)毫秒花在工作16上了吗?
浏览 2
提问于2017-06-26
得票数 1
2
回答
为什么火星执行器
的
发射会出现延误?
、
当我试图优化一个火花工作时,我很难
理解
第二个和6-7s第三和第四执行者
的
发射延迟3-4秒。 这项工作分为三个
阶段
。正如所见,第二、第三和第四遗嘱执行人仅在第二
阶段
增加。 下面是第0
阶段
的
快照。 随着第一
阶段
的
结束。 执行者3和4(对第二个工人)花费
浏览 0
提问于2020-01-26
得票数 1
1
回答
理解
火花异步操作
、
、
我有一个用于
Spark
的
Java代码: SparkConf sparkConf = new SparkConf().set("
spark
.scheduler.mode", "FAIR");我在等待火花在同一时间做两个不同
的
动作。但是在星火应用程序UI
中
,我看到了两个
阶段
,但其中一个
阶段
等待开始,直到另一个
阶段
完成。我在等待两个不同
的
阶段
同时工作,我错了吗?foreach
浏览 4
提问于2017-09-21
得票数 2
回答已采纳
2
回答
执行顺序和缓存需求
、
、
、
、
的
tasks
的
DAG
中
,有两个分支,在创建rdd1之后。如果是,我们是否可以假设在计算rdd3时使用
的
rdd1仍然在内存
中
处理?或者我们必须缓存rdd1,以防止重复加载它?更一般
的
情况是,如果DAG看起来像这样: 我们是否可以假设两个分支都是并行计算
的
,并且使用相同
的
rdd1副本?或者
Spark
driver会一个接一个地计算这些分支,因为这是两个不同
的
阶段
?我知道在执行之前,
spark<
浏览 1
提问于2018-05-08
得票数 2
1
回答
星星之火UI,SQL选项卡
的
含义是什么?
如果我
的
理解
是正确
的
,火花申请可能包含一个或多个工作。作业可以分为
阶段
,
阶段
可以划分为任务。我或多或少可以在星火用户界面
中
遵循这一点(或者至少我认为是这样)。但我对SQL选项卡
的
含义感到困惑。特别是:为了
理解
,我一直在列举一些例子,
浏览 3
提问于2021-07-28
得票数 1
2
回答
写入Cassandra
的
Spark
作业在最后
阶段
挂起
、
我使用
Spark
将2100万条记录插入到Cassandra表
中
。
spark
作业大约需要一个小时,并成功插入所有记录,但在最后
阶段
(62/63)挂起。我
的
Spark
属性:
spark
.executor.cores 1
spark
.executor.memory4g 将记录插入到Cassandra并在最后<e
浏览 1
提问于2018-06-23
得票数 0
2
回答
为什么在按组操作期间我
的
洗牌分区不是200(默认
的
)?(火花2.4.5)
、
、
我是新
的
火花,并试图
理解
它
的
内在。因此,我从s3读取一个小
的
50 to
的
拼板文件,然后按组执行,然后保存回s3。当我观察
Spark
时,我可以看到为此创建
的
3个
阶段
,第1
阶段
:分组
的
洗牌
阶段
(12项任务)代码示例: df =
spark
.read.format所以,默认<em
浏览 2
提问于2020-08-06
得票数 5
回答已采纳
3
回答
Spark
如何在内部工作
我知道
Spark
可以使用Scala、Python和Java来操作。此外,RDDs还用于存储数据。 但是请解释一下,
Spark
的
架构是什么,它是如何在内部工作
的
。
浏览 0
提问于2015-06-07
得票数 38
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
flink和spark Streaming中的Back Pressure
GC调优在Spark应用中的实践
Spark Streaming 中管理 Kafka Offsets 的几种方式
像原设计者一样深入理解Spark
理解 Python 中的 import
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券