腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
spark
中
中止
映射
执行
、
、
如何在
spark
中
中断
映射
作业: if (value == 0)
浏览 5
提问于2016-09-17
得票数 0
回答已采纳
0
回答
在
条件下
中止
RDD
映射
(所有
映射
器)
、
我有一个很大的文件要处理,加载到RDD
中
,并使用map函数对其行
执行
一些验证。我有一组错误,即使
在
文件的一行遇到,也会对整个文件造成致命的影响。因此,我希望
在
一行验证失败时立即
中止
任何其他处理(整个集群中所有启动的
映射
器)(以节省一些时间)。谢谢。 PS:使用
Spark
1.6,Java API
浏览 2
提问于2018-07-18
得票数 0
回答已采纳
1
回答
spark
Async接口的部分结果?
有没有可能取消一个
spark
未来,并仍然得到一个较小的RDD与处理的元素?
Spark
Async动作在这里“记录” 我考虑的用例是有一个非常大的
映射
,它可以
在
计算30分钟后
中止
,并且仍然收集-or,甚至迭代或saveAsObjectFile-已经有效
映射
的RDD的子集。
浏览 1
提问于2015-04-07
得票数 2
1
回答
映射
函数
在
DataFrame上的应用
、
、
我正在使用python/
spark
2.1。我已将数据上载到表
中
。该表是一个充满字符串的单列。我希望对列
中
的每个元素应用一个
映射
函数。我将表加载到数据帧
中
:我能看到的唯一方法是别人说的是将其转换为RDD以应用
映射
函数,然后返回到dataframe以显示数据。但这会引发作业
中止
阶段失败: df2 = df.select("_c0").rdd.
浏览 1
提问于2017-07-31
得票数 18
回答已采纳
3
回答
从PySpark
中
的其他两个列的函数
中
添加一列
、
、
、
、
在数据框架df
中
,PySpark中有两列:+----------+----------+| [5,7,6] | [10,7,7] |df.withColumn("distance", dist(co
浏览 1
提问于2022-06-28
得票数 0
回答已采纳
2
回答
什么时候
在
星星之火上使用persist()不是实际的性能?
、
、
、
在
努力提高代码性能时,因为我有许多作业失败(
中止
),每当我需要在许多其他操作中使用相同的数据same时,我就考虑
在
Spark
上使用persist()函数。
在
执行
任务时,以及
在
Spark
应用程序UI
中
的各个阶段,我觉得这样做并不总是最优的,这取决于分区的数量和数据大小。我不确定,直到我因为坚持阶段的失败而放弃了这份工作。我
在
质问persist() ,无论何时对数据文件
执行
许多操作,使用的最佳实践是否总
浏览 2
提问于2019-02-12
得票数 8
1
回答
可以切片列表,但不能索引
、
、
、
、
:调用Py4JJavaError时出错::由于阶段失败而
中止
的任务:阶段120.0
中
的任务1次失败1次,最近的失败: 120.0阶段
中
丢失的任务1.0 (TID 241,本地主机,
执行
器驱动程序):org.apache.
spark
.api.python.PythonException:回溯(最近一次调用):文件org.apache.
spark
.SparkException行229,
在
main process() File "/home/fi
浏览 2
提问于2018-05-24
得票数 1
回答已采纳
1
回答
在
吡火花RDD上
执行
map/减时出错
、
、
、
lambda o: (o.split(",")[0], float(o.split(",")[1])))我可以很容易地对第二个rdd数据
执行
map /还原函数,但是当我试图
执行
映射
或减少时,我会得到以下错误:那么我们如何将第一个rdd数据转换为第二个rdd数据,或者如果有任何解决以下错误的方法,请提供帮助。谢谢 z:org.apache.
spark
.api.python.PythonRDD.runJob
浏览 1
提问于2020-11-12
得票数 0
回答已采纳
1
回答
运行TPCDS基准测试数据集时的火花错误-无法找到dsdgen
、
当我运行这个: scala> [troberts@master1
spark
-sql-perf]$
spark
-shell --master yarn --deploy-mode cliers /home/troberts/
spark
-sql-perf/target/scala-2.11/
spark
-sql-perf_2.11-0.5.1-SNAPSHOT.jar -i TPCDPreparation.scala由: org.apache.
spark
浏览 0
提问于2020-03-28
得票数 2
回答已采纳
1
回答
Spark
StackOverFlow上的配置单元错误
、
、
我
在
CDH 5.10上运行
Spark
上的Hive。我得到了下面的错误。我已经检查了YARN、Hive和
Spark
的所有日志,但除了以下错误之外,没有其他有用的信息: 由于阶段故障,作业已
中止
:阶段0.0
中
的任务0失败了4次,最近一次失败:阶段0.0
中
丢失了任务0.3 (TID4,xxx.local,
执行
器1):java.lang.StackOverflowError
浏览 0
提问于2017-09-08
得票数 0
1
回答
为什么
Spark
会在出现异常的情况下终止驱动程序进程?
、
我是
Spark
流媒体和
Spark
的新用户。
在
我的测试
中
,我注意到流
中
的一个单一错误会导致整个流媒体应用程序失败。 为了更清楚,让我用一个例子来解释。如果我的代码有一个bug,并且假设所有的数据项都是整数,那么
在
处理流
中
的foo字符串时,它将抛出一个异常。在这种情况下,默认情况下,
Spark
engine会重试任务3次(可以
在
中
查看
spark
.task.maxFailures参数)。然后,在所有不成功
浏览 0
提问于2015-10-29
得票数 0
1
回答
资源匮乏下Kubernetes上的
Spark
作业无限期等待
SPARK
_MIN_EXECUTORS
、
我正在使用
Spark
3.0.1,并在Kubernetes上进行项目
spark
部署,其中Kubernetes代理
spark
作业的集群管理器,
spark
使用客户端模式提交作业。如果群集没有足够的资源(CPU/内存)用于最小数量的
执行
器,则
执行
器将无限期地处于挂起状态,直到资源释放。假设集群配置为: total Memory=204Gifree memory= 4Gi<em
浏览 7
提问于2021-02-05
得票数 0
1
回答
如何将file.deflate.gz文件加载到火花数据
中
?
、
当将数据加载到
Spark
时,它在ArrayOutofBound异常下失败。val cf =
spark
.read.option("header", "false").option("delimiter", "\u0001").option("codec", "deflate").csv("path/xxx.deflate.gz")错误: org.apache.
spark
浏览 4
提问于2017-08-17
得票数 0
1
回答
fail显示火花放电
、
、
、
、
pip install Pysparkfrom pyspark.sql import SparkSessionpdf = pd.read_excel("xxxx.xlsx", sheet_name='Input (I)')df.show():org.apache.
spark
.SparkException:由于
浏览 1
提问于2021-11-04
得票数 0
1
回答
以编程方式
中止
整个测试集的
执行
?
、
、
如何从脚本
中
中止
整个测试集的
执行
? 我有一个库,如果遇到某些情况,它得出的结论是,进一步的测试
执行
没有任何意义。我知道的“最难”的
中止
是ExitTest,但它只
中止
当前测试的
执行
,而不是整个测试集。我知道我可以将它
映射
到测试集中的测试依赖项,但这些依赖应该只用于建模测试之间的业务驱动依赖关系,协调并行测试
执行
,而不是我正在寻找的全局
中止
,它可以在任何时候发生,在任何测试
中
(即在库代码
中</e
浏览 0
提问于2015-11-23
得票数 2
1
回答
火花上下文问题
、
、
、
spark
= SparkSession.builder.appName('QUEUEVQL').getOrCreate() dfs2 =
spark
.sparkContext.parallelize(dfs).toDF() resDf =
spark
.sql("se
浏览 4
提问于2021-07-22
得票数 0
1
回答
如何在星火中指定作业超时?
、
、
、
、
这项工作通常需要不到5分钟才能完成,但有时我会遇到工作卡住的问题,因为
执行
者丢失了,而我仍在调查
中
。 如果
执行
超过指定的超时时间,如何在
Spark
中指定超时以使驱动程序杀死所有
执行
程序及其本身?
浏览 12
提问于2022-10-01
得票数 1
回答已采纳
1
回答
如何删除包含csv数据的RDD
中
包含空值的条目?
、
、
、
、
我试图将csv文件
中
的值
映射
到RDD
中
,但是我得到了以下错误,因为其中一些字段为null。线程“主”org.apache.
spark
.SparkException
中
的异常:由于阶段失败而
中止
作业:阶段0.0
中
的任务0失败1次,最近一次失败:阶段0.0
中
丢失的任务0.0 (TID 0,本地主机,
执行
器驱动程序):java.lang.NumberFormatException:空字符串 下面是我正在使用的代码。
浏览 1
提问于2019-01-06
得票数 1
回答已采纳
1
回答
在
超时时退出慢速星图,但保留到目前为止的结果
我正在一个
Spark
上
映射
,使用一个非常昂贵的函数(可能每行几十秒)。 这可能需要太长时间,我需要
中止
它,以便为数据流
中
的其他作业让路。是否有办法
在
超时时尽早退出转换,但保留到目前为止计算出来的部分结果?
浏览 1
提问于2018-07-06
得票数 0
1
回答
Hortonworks纱线故障的字数计算实例
、
、
、
、
虽然我能够
在
本地模式下运行
spark
Java示例,但是我无法
在
模式下运行Java示例。下面是我用于
执行
的步骤:
在
Eclipse
中
,我创建了一个Java项目,
在
src下,主管创建了一个文件JavaWordCount,代码取自Apache附带的示例示例。-主纱-客户-num-
执行
器1-驱动器-内存512 m-
执行
器-内存512 m-
执行
器-核心1/家庭/火车/桌面/火花
浏览 1
提问于2015-02-28
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券