腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
在
读取
文件
时
增加
NumPartitions
会比
spark
RDD
中
的
原始
文件
增加
输入
大小
?
、
我正在使用sc.textFile(<fileName>, 1)
读取
一个带有一个分区
的
小文本
文件
,我可以看到
输入
大小
与
原始
文件
大小
相同。但是,当分区
增加
到5. sc.textFile(<fileName>, 5)
时
,
输入
大小
几乎是
原始
文件
大小
的
3倍。我正在调用count操作来启动作业,并且
浏览 15
提问于2021-04-30
得票数 0
1
回答
为什么
在
访问偏移量
时
,ClassCastException与重新分区
的
dstream一起发生流流失败?
、
、
在
我
的
星火应用程序
中
,我以如下方式从一个Kafka主题创建了一个DStream: .createDirectStream[String, Array[Byte], StringDecoderMessageAndMetadata[String, Array[Byte]] => (message.key(), message.message()) }之后,我使用asInstanceOf函数提交了对Kafka主题
的
偏移: directKafkaStream.foreachRDD { <
浏览 3
提问于2017-05-30
得票数 1
回答已采纳
1
回答
spark
java.io.IOException:磁盘空间不足
、
、
我
在
一个8节点
的
spark
集群上运行逻辑回归算法,每个节点有8个核心和56 GB
的
Ram (每个节点都运行windows系统)。并且
spark
安装驱动程序具有1.9 TB
的
容量。我
在
are上训练
的
数据集有大约4000万条记录和大约6600个特征。但在训练过程
中
,我总是会遇到这样
的
错误: Py4JJavaError: An error occurred while calling o70.trainLogisticRe
浏览 2
提问于2015-03-14
得票数 1
3
回答
在
Spark
2.1.0
中
读取
大
文件
时
内存不足
、
、
、
、
我想使用
spark
将一个大型(51 it ) XML
文件
(在外部HDD上)读入一个数据
文件
(使用),执行简单
的
映射/过滤,重新排序,然后将它写回磁盘,作为一个CSV
文件
。--我想了解
为什么
不
增加
分区数,停止OOM错误 在
读取
和写入时(初始值为1,604)将数据重新划分/合并为(5,
浏览 7
提问于2017-05-05
得票数 8
1
回答
如何提高火花性能?
、
、
、
、
我有处理大型数据集
的
Java程序。数据集存储
在
hdfs (csv)
中
。String[]filter字符串数组加载csv
文件
单独行映射到MyObject 保存MyObject到Cassandra<code>G 211</code>public", "4g"); sp
浏览 6
提问于2020-05-22
得票数 3
回答已采纳
2
回答
Apache
中
的
RDD
分区,以便一个分区包含在一个
文件
上
、
、
、
RDD
上定义自定义分区,这样一个分区必须包含一个
文件
。使每个分区i.e.one csv
文件
跨一个节点进行处理,以加快数据处理速度。我怎样才能做到这一点?3600 2.第一列为第二列,分
浏览 9
提问于2016-06-08
得票数 5
1
回答
ShuffledRDD[' number ']后面的数字表示什么?
、
、
我正在尝试从hdfs路径
读取
文件
路径,并在上面执行一些转换,最后在上面应用一些自定义分区。{FileSystem, Path} val
numPartitions
= 96val
rdd
= fs .filter(x => x.getPath.to
浏览 1
提问于2021-02-04
得票数 0
回答已采纳
1
回答
MapOutputTracker serializeMapStatuses内存
中
的
火花输出错误
、
我有一个火花作业,
在
第0阶段有几十万个任务(300000个或更多
的
任务),然后
在
洗牌过程
中
,以下异常抛到驱动端:org.apache.
spark
.MapOutputTrackerMaster.getSerializedMapOutputStatuses(MapOutputTracker.scala2G
的
INTEGER.MAX
时
,它就会抛出内存错误。这意味着映射状
浏览 3
提问于2017-09-30
得票数 0
1
回答
Apache分区分发策略
哈希分区、范围分区和编写自定义分配器
的
能力。但是分区是如何按集群节点分布
的
呢?有什么办法可以影响这件事吗?
浏览 0
提问于2018-05-20
得票数 2
回答已采纳
1
回答
为什么
Spark
在
读取
文本
文件
时
将
RDD
ID
增加
2而不是1?
、
、
在
使用
spark
-shell
时
,我注意到了一些有趣
的
事情,我很好奇
为什么
会发生这种情况。我使用基本语法将一个文本
文件
加载到
Spark
中
,然后简单地重复这个命令。REPL
的
产出如下:myreviews: org.apache.
spark
.
rdd
.
RDD
[St
浏览 0
提问于2018-11-29
得票数 0
回答已采纳
1
回答
如何在重新分区后
在
input_file_name
中
获得正确
的
PySpark
、
、
、
、
我正在开发一个PySpark作业,用于
读取
文本
文件
,并在AWS S3桶上编写拼图
文件
。 我需要添加一个列到每一行,描述
原始
文本线
的
源
文件
。我使用
的
是input_file_name,但是
在
输出列中看不到正确
的
源
文件
名。似乎对整个任务或错误
的
分区使用相同
的
文件
名。我不知道这是由我需要做
的
重新分区引起
的
,还是因为我正在S3
中<
浏览 3
提问于2020-03-24
得票数 1
回答已采纳
2
回答
spark
历史服务器不显示
RDD
,即使它是持久化
的
、
我
在
spark
版本2.0.2
中
运行
spark
shell。这是我
的
程序,myrdd.setName("test")myrdd.collect但是我仍然无法
在
spark
history服务器
的
"storage“选项卡中看到任何
RDD
信息。
浏览 20
提问于2017-02-23
得票数 1
回答已采纳
1
回答
Spark
分区
的
HDFS
文件
是如何实现
的
?
、
如果我们有一个未压缩
的
320块HDFS
文件
存储
在
一个16个数据节点集群。每个节点都有20个块,如果我们使用
Spark
将这个
文件
读取
到
RDD
中
(
在
创建
RDD
时
没有显式传递
numPartitions
) textFile = sc.textFile("hdfs://input/
浏览 3
提问于2016-12-08
得票数 2
1
回答
Spark
读取
的
numPartitions
值是否取决于执行器
的
数量?
、
我已经
在
一个具有两个核心和16 up内存
的
单一节点上设置了
Spark
,以生成一些粗略
的
POCs。我希望使用val df =
spark
.read.format('jdbc')...option('
numPartitions
',n).load()从SQL源加载数据。当我试图通过调用一个
numPartitions
值来测量
读取
不同df.
rdd
.count值
的
表所花费
的</em
浏览 0
提问于2020-04-14
得票数 0
回答已采纳
1
回答
使用
Spark
RDD
处理对象
的
成员变量
时
,处理结果未保存,
println("***TEST map size is "+map.size);} addItem()是将(K,v)加到对象
的
成员变量“map”
中
。test()是从
文件
中
读取
行(每行是(k,v)对)到
RDD
,然后处理每一行以将相应
的
(k,v)添加到"map“。当调用test()
时
,我们可以看到addItem()一直被成功调用,“map”
的
大小
不断
增加
。但是当执行
浏览 4
提问于2017-03-13
得票数 0
2
回答
在
Spark
中
获取错误: Executor丢失
、
、
我有一个主程序和两个从程序,每个主程序和两个从程序都运行在32 GB
的
RAM上,并且我正在
读取
一个包含大约1800万条记录
的
csv
文件
(第一行是列
的
标题)。./
spark
-submit --master yarn --deploy-mode client --executor-memory 10g <path/to/.py file>
rdd
然后,我修改了代码,删除了
浏览 0
提问于2015-10-12
得票数 2
2
回答
reduceByKey
的
分区方面
、
、
尽管RDDs是遗留下来
的
--而且在下一次任务之前还有一点
时
间--我仍在想: 考虑到它
的
工作原理类似于Map
中
的
combineByKey,那么真正
的
意义是什么?
在
实际情况下,我怀疑它不是经常使用
的
,一般情况下(根据我自己
的
观察),已经重新划分了它。
浏览 3
提问于2020-05-21
得票数 1
2
回答
在
本地
文件
系统(非HDFS )中使用Scala
读取
Apache
Spark
中
的
文件
时
,如何更改
输入
块
大小
、
、
、
、
我有一个从本地
文件
系统
读取
CSV
文件
的
程序。
Spark
(
在
本地模式下运行)实际使用实例
的
全部16核。所以我有16个并行运行
的
任务。 现在,我要做
的
是在
读取
文件
时调优它
的
性能。
在
检入
Spark
UI
时
,我发现每个任务
读取
128MB
的
文件
作为
输入
大小<
浏览 5
提问于2018-04-12
得票数 1
1
回答
退出代码为143
的
非零出口容器
、
、
、
、
在这个问题上,我看到了各种各样
的
线索,但所给出
的
解决方案
在
我
的
情况下行不通。 该环境使用了pyflem2.1.0,Java 7,并且有足够
的
内存和内核。我正在运行一个处理Json
文件
的
星火提交作业,该作业运行良好,
文件
大小
<200 if,但是如果超过这个值,对于退出代码为非零
的
容器,它会失败,然后我检查了纱线日志,错误是java.lang.OutOfMemoryError:所请求
的
数组
浏览 0
提问于2020-04-03
得票数 0
2
回答
调优火花、设置执行器和内存驱动程序以
读取
大型csv
文件
、
、
、
、
我想知道如何选择最佳
的
设置运行调我火花工作。基本上,我只是将一个大
的
csv
文件
读取
到一个DataFrame
中
,并计数一些字符串出现
的
情况。TotalNumberOfTasks: (18500),
为什么
这是固定
的
?这是什么
浏览 4
提问于2017-12-05
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark核心编程RDD分区器以及文件读取与保存
Spark应用数据分片介绍
机器学习实践:如何将Spark与Python结合?
Spark 核心编程RDD的使用(1)
关于Spark Streaming 技术要点的一些汇总
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券