从S3运行Spark作业会产生随机的输入大小值

、、、

我刚刚开始使用S3作为输入，使用EC2作为集群的实例来运行Spark作业。我用的是Cloudera，Spark 2.3.0，Dataframe，Jupyter notebook，python 2。对于我来说，看到作业阶段及其任务的随机输入大小值是非常奇怪的。所谓随机，我的意思是这些指标的<em

浏览 1提问于2018-07-11得票数 0

1回答

在电子病历上的火花工作突然需要30小时(从5个小时)

、、

我有一个星火作业，运行在亚马逊EMR集群的1主和8个核心。简而言之，Spark作业从S3读取一些S3文件，将它们转换为RDD，在RDD上执行一些相对复杂的联接，最后在S3上生成其他.csv文件。输入( S3文件)没有明显的差异。我检查了日志，，在漫长的运行(30小时)中，我可以看到一些关于OutOfMemory错误的</

浏览 1提问于2019-04-17得票数 0

1回答

通过火花数据帧将数据写入S3并按比例-由s3 503减速错误导致的s3连接问题

、、

我们正在尝试使用AWS EMR集群在spark中读取和写入数据到S3。在这个过程中，当我们扩展执行时，我们最终遇到了一些问题。当我们尝试为四分之一的数据处理相同的作业时，我们没有注意到这个问题，但当我们将其扩展到并行运行多个季度的数据时，随机地为一个/多个季度的数据，我们开始看到spark作业在将数据写入S3时失败。然后我们进一步深入了解问题，也就是当我们意识到s

浏览 0提问于2018-10-23得票数 1

5回答

Parquet谓词下推是否使用Spark在S3上工作？

、、

只是想知道Parquet谓词下推是否也适用于S3，而不仅仅是HDFS。特别是如果我们使用火花(非EMR)。进一步的解释可能会有帮助，因为它可能涉及了解分布式文件系统。

浏览 8提问于2016-01-21得票数 14

回答已采纳

1回答

是否有可能运行多个并行写入S3的Spark结构化流作业？

、、、

我正在尝试运行多个星火结构化流作业(在EMR上)，这些作业从卡夫卡主题中读取并写入S3中的不同路径(每个路径在各自的任务中执行)。我已经将我的集群配置为使用。下面是我试图运行的代码片段： .readStream \ .option("kafka.bootstrap.servers()

浏览 2提问于2020-06-15得票数 1

1回答

通过PySpark直接从DWH处理数据是一种好方法吗？

、

我有两个DWH，我需要通过PySpark处理他们的数据，作业将在AWS EMR上执行。我想知道通过PySpark直接从DWH处理数据是可以的，还是让ETL从DWH到S3，然后运行将使用S3数据的Spark作业会更好。

浏览 39提问于2021-08-31得票数 0

1回答

为什么火花提交作业使进程在集群(EMR)主节点上运行？

、、

我通过AWS lambda函数向Livy提交了一个火花作业。该作业运行到驱动程序的末尾，但随后不会关闭。如果将spark.stop()或sc.stop()添加到驱动程序的末尾，火花作业将在纱线资源管理器上完成，Livy将报告成功。但是，在主节点上仍然有一个livy进程，它占用大约1.5Gb的内存。如果提交了许多作业，这将最终使用并保存所有主节点内存。在主节点上收集这些记录，然后使

浏览 0提问于2019-04-09得票数 0

2回答

如何在电子病历上调优火花作业，在S3上快速写大数据

、、、

我有一个火花作业，在两个数据帧之间做外部连接。第一个数据帧的大小为260 GB，文件格式为文本文件，分为2200个文件，第二个数据帧的大小为2GB。然后，将大约260GB的数据帧输出写入S3需要很长时间，在此之后，我取消了2个多小时，因为我在EMR上已经做了很大的更改。真正的原因是分区.And占用了大部分时

浏览 3提问于2017-10-15得票数 20

1回答

为什么一个操作需要多个作业才能在spark* - scala中完成*

、

我在spark-scala中的一个数据帧上做了一个旋转操作。但对于单轴，它需要多个作业才能完成(如下图所示)。可能的原因是什么？ ? 这是一个相当普遍的问题，因为我在其他动作中也经历了同样的情况。

浏览 14提问于2020-11-25得票数 1

2回答

Spark RDD.saveAsTextFile正在向S3写入空文件

、

我正在尝试使用Spark1.6 (spark-1.6.0-bin-hadoop2.4.tgz)执行一个map-reduce作业，该作业从S3读取输入并向其中写入输出。我使用相同的存储桶来输出文件：outputRDD.saveAsTextFile(s3n://bucket/path/to/output/) 当我的输入非常小(< 100条记录)时，这似乎可

浏览 1提问于2016-01-26得票数 2

4回答

AWS Glue作业未写入S3

、

我一直在尝试使用Glue，但还没有让它在现有的S3存储桶中成功地创建一个新表。作业将在没有错误的情况下执行，但在S3中永远不会有任何输出。下面是自动生成的代码：connection_type = "s3", connection_options = {"path": "s3:&#x

浏览 1提问于2017-09-21得票数 6

1回答

spark创建的分区太多

、

我有3个Cassandra节点集群，1个种子节点，1个spark主节点和3个从节点，8 GB内存和2个内核。下面是我的spark作业的输入当我使用这个配置集运行时，我看到创建了大约768个分区，大约89.1MB的数据我使用的是Cassandra spark connector版本1.4

浏览 0提问于2015-09-27得票数 1

2回答

如何克服AWS胶作业中的“设备上无空间”错误

、、

我在PySpark中使用了AWS作业从超过10 TB的s3拼板文件中读取数据，但是作业在执行Spark查询时失败了。所以我们试图增加工人的数量。是否有方法将星火本地临时目录配置为s3而不是本地文件系统？我曾尝试在Spark会话构建器中配置该属性，但仍然使用本地tmp目录

浏览 1提问于2020-12-28得票数 10

1回答

Spark Dataframe挂起保存

、、、、

我一直在努力找出我的spark作业出了什么问题，因为我试图将它写到S3或HDFS (大约100G的拼图格式的数据)。导致挂起的代码行：我已经尝试了覆盖以及附加模式，并尝试保存到HDFS和S3，但无论如何作业将挂起在Hadoop资源管理器GUI中，它将

浏览 2提问于2018-01-12得票数 6

回答已采纳

2回答

spark的随机读和随机写之间的区别是什么？

、

我需要运行一个有大量数据的spark程序。我正在尝试优化spark程序，并通过spark UI工作，试图减少Shuffle部分。我在互联网上搜索过，但找不到关于它们的具体细节，所以想看看是否有人可以在这里解释它

浏览 3提问于2016-03-06得票数 13

1回答

AWS粘合和重复数据删除增量CSV文件

、

每天我都想对这些数据运行一个file2，并将其写到不同的S3位置，这样我就可以用雅典娜查询它，而不会出现重复的行。本质上，我只想查询聚合数据的最新状态(这只是最近提交到S3的文件的内容)。我认为书签不会起作用，因为增量交付包含以前文件中的数据，因此会产生重复的数据。如果我在源存储桶中的所有文件上运行，我知道我可以转换为数据帧并删除重复项： <em

浏览 18提问于2018-07-25得票数 1

1回答

Mesos上的Apache Spark* :初始作业未接受任何资源*

、、、

我使用Apache Mesos在集群模式下运行Apache Spark。但是，当我启动Spark-Shell运行一个简单的测试命令(sc.parallelize(0 to 10，8).count)时，我收到以下警告消息：如果我查看Mesos WebUI，我可以看到

浏览 0提问于2016-03-10得票数 3

1回答

如何在AWS Glue PySpark中运行并行线程？

、、、

我有一个火花作业，它将从具有相同转换的多个表中提取数据。基本上是一个for循环，它遍历一个表列表，查询目录表，添加时间戳，然后插入Redshift (下面的例子)。) glueContext = GlueContext(SparkContext.ge

浏览 4提问于2020-07-03得票数 5

回答已采纳

1回答

如何在非阻塞模式下启动spark* (使用thrift服务器)，以便hive可以更新数据并将数据重新加载到spark中(查看表格)*

、、、

我们确实遇到了表查找的问题。我们需要同时从hive和spark (使用thrift服务器)访问表格。然而，我们的问题是在spark上运行spark和thrift服务器导致一个表的查找。我们在Amazon AWS EMR集群上运行，其中包含Hive、Spark和thrift Server2。我们希望使用hive更新s3存储，并定期在后台将这些聚合数据加载到spark中。同时，<em

浏览 2提问于2015-12-22得票数 0

1回答

没有输入数据集的火花作业

、

我想写一个火花作业，产生数百万个随机数作为输出。这不需要输入数据集，但最好具有集群的并行性。我知道Spark在RDD上运行，RDD是定义上的数据集，我只是想知道是否有一种方法可以强迫许多执行者在没有RDD的情况下运行特定的函数，或者创建一个模拟的RDD。

浏览 2提问于2016-03-16得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在电子病历上的火花工作突然需要30小时(从5个小时)

通过火花数据帧将数据写入S3并按比例-由s3 503减速错误导致的s3连接问题

Parquet谓词下推是否使用Spark在S3上工作？

是否有可能运行多个并行写入S3的Spark结构化流作业？

通过PySpark直接从DWH处理数据是一种好方法吗？

为什么火花提交作业使进程在集群(EMR)主节点上运行？

如何在电子病历上调优火花作业，在S3上快速写大数据

为什么一个操作需要多个作业才能在spark* - scala中完成*

Spark RDD.saveAsTextFile正在向S3写入空文件

AWS Glue作业未写入S3

spark创建的分区太多

如何克服AWS胶作业中的“设备上无空间”错误

Spark Dataframe挂起保存

spark的随机读和随机写之间的区别是什么？

AWS粘合和重复数据删除增量CSV文件

Mesos上的Apache Spark* :初始作业未接受任何资源*

如何在AWS Glue PySpark中运行并行线程？

如何在非阻塞模式下启动spark* (使用thrift服务器)，以便hive可以更新数据并将数据重新加载到spark中(查看表格)*

没有输入数据集的火花作业

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐