腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
配置单元
分区
表上的
spark
行为
、
、
我使用
Spark
2。我们将hive表划分为2000个
分区
,并以拼接格式存储。当在
spark
中使用这个表时,在executors中恰好有2000个任务被执行。但是我们有一个256MB的块大小,我们期望(总大小/ 256 )
分区
的数量肯定会比2000小得多。
spark
是否有任何内部逻辑使用
数据
的物理结构来创建
分区
。任何参考/帮助都将不胜感激。 更新
浏览 1
提问于2018-04-05
得票数 2
1
回答
spark
如何将训练任务均匀地分配给执行者?
、
我已经设置了一个包含4个worker(每个有4个核心)和1个master的
spark
独立集群。每台都有Windows10操作系统。我向我们的
spark
独立集群提交了
spark
的ML示例: multilayer_perceptron_classification.py。但它是将所有任务都交给一个执行者在一个worker上执行。enter image description here 火花代码是(代码使用multilayer_perceptron_classification.py MLlib):
spark
= SparkS
浏览 33
提问于2019-02-26
得票数 0
回答已采纳
1
回答
ADLS中的parquet
文件
的
分区
数是否与将其作为dataframe读取后的
分区
数相同?
、
、
我在ADLS中有3个拼花
文件
2块
文件
有10个子块
文件
,当我在
数据
库中读取它时,
分区
的数量等于10个,这是预期的行为。第三个
文件
有172个 snappy.parquet
文件
,当我将它作为一个
数据
文件
读取时,
分区
的数量等于89,原因是什么?使用此命令df.rdd.getNumPartitions()查找
数据
格式的
分区
数。
浏览 1
提问于2022-07-17
得票数 1
回答已采纳
1
回答
从S3读取
分区
数据
-
分区
是如何发生的?
、
当我使用
Spark
从S3读取
多个
文件
时(例如一个包含
多个
Parquet
文件
的目录)-此外,
分区
是否默认为用于写的
分区
(即每个
文件
=1个
分区
)?
浏览 0
提问于2018-11-11
得票数 5
回答已采纳
2
回答
Dataproc未使用pyspark并行处理大
数据
、
、
我开发了一个pyspark代码,它从GCS读取一个csv
文件
。csv
文件
的大小约为30G。df_raw = ( .read .option('header', 'true')pyspark gs://<my-gcs-bucket>/<my-program>.py \ --region=${
浏览 4
提问于2021-05-03
得票数 0
1
回答
火花内存调优
、
、
、
我读到的关于这方面的所有文档都是从集群端(https://spoddutur.github.io/
spark
-notes/distribution_of_executors_cores_and_memory_for_
spark
_application.html但是我想知道我们如何调整这些与特定输入
文件
相关的参数。 例如:我不想在同一个集群中对1 GB使用相同的参数,而对250 Gb使用相同的参数。
浏览 19
提问于2021-11-21
得票数 0
2
回答
蜂箱
分区
、火花
分区
和加入火花-它们之间的关系
、
、
、
试图理解Hive
分区
是如何与
Spark
分区
相关联的,最后提出了一个关于联接的问题。问题1:val table1 =
spark
.table("table1").as[Table1Row]那么,生成的
数据
集将分别有多少个
分区
?map(row1 => ((row1.date, ro
浏览 4
提问于2018-04-25
得票数 5
3
回答
将大文本
文件
导入
Spark
、
、
我有一个以竖线分隔的文本
文件
,大小为360 is,压缩(gzip)。该
文件
位于S3存储桶中。这是我第一次使用
Spark
。我知道,您可以对
文件
进行
分区
,以便允许
多个
工作节点对
数据
进行操作,这会带来巨大的性能提升。但是,我正在尝试找到一种有效的方法来将我的一个360‘m的
文件
转换为
分区
文件
。有没有办法使用
多个
spark
worker节点来处理我的一个压缩
文件
,以便对其
浏览 1
提问于2017-10-25
得票数 4
1
回答
马赛克决策Azure BLOB编写器节点创建
多个
文件
我正在使用马赛克决策
数据
流功能从Azure blob读取
文件
,执行一些转换,然后将该
数据
写回Azure。它工作得很好,除了在我给出的输出
文件
路径中,它创建了一个
文件
夹,我可以看到许多
文件
的名称中有一些奇怪的“part-000”等。我需要的是输出位置中的一个
文件
--不是很多。
浏览 15
提问于2020-06-18
得票数 2
回答已采纳
1
回答
如果有在加载阶段拥有'maxRecordsPerFile‘的好方法,就会产生火花
、
、
我已经按存储在s3上的空间列(四键)
数据
进行了
分区
。假设将150个
分区
中的5000个
文件
加载到我的
spark
应用程序中时,我希望将
数据
分解为15,000个
分区
,但我希望保留已存在的
分区
。例如,通常我现在每个
分区
有200mb,所以我想将这些
分区
分解到50mb,对于已经少于50mb的
分区
,我希望保持原样。当然,这方面有很多工作要做,但可能会有一些优雅的解决方案,比如
Spark
在保存阶段
浏览 48
提问于2020-03-25
得票数 1
3
回答
如何以压缩的csv或拼花
文件
(类似的to.gz格式)有效地上传pyspark
、
、
、
我在S3中有130个GB的S3
文件
,它使用从redshift到S3的并行卸载加载。因为它包含
多个
文件
,所以我想减少
文件
的数量,这样我的ML模型(使用sklearn)就更容易阅读了。我已经设法使用: S3将
多个
数据
从
spark
_df转换为火花
数据
格式(称为
spark
_df)。
spark
_df1包含100
多个
列(特性),是我对数百万客户ID的时间序列推断
数据
。因为它是时间序列
浏览 8
提问于2022-05-14
得票数 0
回答已采纳
1
回答
在保存到
分区
拼花
文件
时实现并发性
、
、
当使用dataframe向parquet写入partitionBy时:我期望所编写的每个
分区
都由一个单独的任务独立完成一个工作人员正在循环遍历每个
分区
并依次写出.parquet
文件
。为什么会出现这种情况--在这个
spark
.write.parquet操作中是否存在强制并发的方法?
浏览 0
提问于2018-06-26
得票数 5
回答已采纳
2
回答
为什么火花创建的
分区
少于从S3读取的
文件
数量
、
我的工作是把5.000个小的拼花
文件
读入s3。 当我执行一个mapPartitions和一个collect之后,只使用278任务(我希望使用5000)。为什么?
浏览 2
提问于2018-11-06
得票数 0
1
回答
Spark
分区
数据
多个
文件
、
我有5个表存储为CSV
文件
(A.csv,B.csv,C.csv,D.csv,E.csv)。每个
文件
都按日期进行
分区
。如果我有如下的
文件
夹结构:A/ds=2017-07-02/A.csv 然后使用下面的命令将自动识别
Spark
2.x中表A的
分区
.option(
浏览 1
提问于2017-07-29
得票数 1
回答已采纳
1
回答
星星之交后重新排序的蜂巢表
、
、
、
=209715200 第二个表名- t
浏览 1
提问于2019-04-05
得票数 2
1
回答
读取Avro
文件
,一次一行。Python
、
上下文:我想把Avro
文件
读入
Spark
作为RDD。我想知道,如果我可以访问Avro
数据
模式,是否可以一次解析一行Avro
文件
。 我正在使用pyspark来编写我的
spark
作业。我正在考虑使用sc.textfile来读入这个巨大的
文件
,如果我可以一次解析一行的话就可以进行并行解析。任何指向解析Avro
文件
的指针,一次一行,将非常感谢。
浏览 1
提问于2015-12-12
得票数 1
1
回答
为什么
Spark
应用程序将包含
多个
csv
文件
的DataFrame保存到S3存储桶
、
、
、
嗨,我是
Spark
和Amazon EMR集群的新手。 我试图编写一个可以在Amazon EMR集群上运行的演示
spark
应用程序。当代码在Zeppelin notebook上运行时,它会返回输出,我认为输出会保存为Amazon EMR集群上的单个
文件
,如下所示: %pyspark
spark
.conf.set('
spark
.sql.repl.eagerEval.enabled应用程序时,它将
多个
CSV
文件
保存到S3存储桶中。我想知道为什么我的
Spark
浏览 31
提问于2021-04-16
得票数 0
回答已采纳
2
回答
如何存储500 of /1TB
数据
的
文件
、
我是新来的火花,我读到火花储存的
数据
在内存中。它会把
数据
存储在磁盘中吗?提前感谢
浏览 3
提问于2017-01-02
得票数 1
回答已采纳
1
回答
吡火花中列上的重新
分区
是如何影响
分区
数量的?
、
、
、
、
我有一张有一百万张记录的
数据
。.| domain1 | 如果我执行df.repartition("domain"),如果一个
分区
不能容纳特定域密钥的所有
数据
,应用程序会失败还是会根据
数据
自动创建适合的
分区
?假设在上面的
数据
中,基于域键已经进行了重新
分区
,那么就会有两个
分区
(惟一的键是dom
浏览 1
提问于2018-12-12
得票数 1
回答已采纳
1
回答
并行执行一个函数,在PySpark中处理庞大的XML
文件
、
我有一个,它只有1列(
文件
名)和许多行。这些是具有size>= 1GB的XML
文件
的
文件
名。还有另一个功能如下所示。filename): <do process 1>我想同时调用dataframe
文件
f的所有行上的函数转换
文件
。
浏览 15
提问于2022-08-23
得票数 0
点击加载更多
相关
资讯
Spark核心编程RDD分区器以及文件读取与保存
如何管理Spark的分区
关于Spark Streaming感知kafka动态分区的问题
走进大数据 Spark-Spark streaming
如何用Python快速导入多个excel文件并合并文件数据
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券