如何在pyspark中的结构化流式作业中运行映射转换

、、

如何在pyspark中调整spark结构化流式作业期间的内存核心消耗？

浏览 18提问于2020-08-06得票数 0

1回答

、

我正在尝试使用map()转换来设置一个结构化的流作业，该转换可以进行REST API调用。\.start() 但是，我得到了一个错误:带有流源的查询必须在第

浏览 20提问于2020-10-07得票数 0

4回答

对HDFS文件的一部分运行MR作业

假设您有一个大文件存储在hdtf中，其中包含结构化数据。现在的目标是只处理文件中的一部分数据，就像文件中第二列值介于so和so之间的所有行一样。是否可以启动MR作业，使hdfs仅流式传输文件的相关部分，而不是将所有内容流式传输到映射器。原因是我想通过只处理我需要的部分来加快工作速度。可能一种方法是运行MR作业来创建一个新文件，

浏览 0提问于2012-01-26得票数 1

回答已采纳

1回答

Spark结构流作业被卡住数小时而未被杀死

、、、、

我有一个结构化的流式作业，从kafka读取，执行聚合和写入hdfs。该作业在yarn中以群集模式运行。我使用的是spark2.4。每隔2-3天，这项工作就会卡住。它不会失败，但会卡在某个微批处理中。当我终止流式作业并重新启动时，该作业再次开始正常运行。如何解决这个问题？

浏览 34提问于2020-10-03得票数 0

1回答

spark structured streaming和batch的接收器相同吗？

、、、、

一个是批处理作业，另一个是结构化流式作业。两者都写入相同的文件接收器。两者具有相同的架构。但是，当从该接收器读取数据时，spark仅读取由流式作业创建的文件，并跳过由批处理作业创建的文件。然而，这并不总是可能的，因为在下一个微批spark中将在那里创建另一个_spark_metadata文件夹。如何在spark中读取此接收器中<

浏览 13提问于2020-05-20得票数 0

3回答

HBase有自己的结构化数据(在HDFS上)还是可以对HDFS上的非结构化数据执行

、、

我正在切割我的牙齿进入Hadoop生态系统，并对MR，纱线和HDFS相当了解。我正在探索生态系统的其他部分。我相信HiveQL可以以类似于SQL的方式在HBase上运行，而且几乎是实时的。如果是这样的话，我认为有必要将HDFS上的非结构化数据转换为结构化数据，以便在HQL中运行相对较快的查询。这是否意味着数据以非结构化形式以HDFS形式存在，然后以结构化

浏览 1提问于2015-08-30得票数 0

2回答

亚马逊MapReduce无reducer作业

、、、

我正在尝试通过AWS (流式作业)创建一个仅限映射器的作业。reducer字段是必需的，所以我给出了一个虚拟的可执行文件，并将-jobconf mapred.map.tasks=0添加到额外的参数框中。在我安装的hadoop环境(版本0.20)中，不会启动任何reducer作业，但在AWS中，虚拟可执行文件启动并失败。如何在AWS中</

浏览 0提问于2009-12-31得票数 9

回答已采纳

1回答

pyspark结构化流式处理不使用query.lastProgress或其他标准指标更新查询指标

、、

我正在尝试将日志记录添加到我的pyspark结构化流应用程序中，以便查看每个微批处理的进度和统计数据。writestream方法使用foreach编写器将数据帧中的行写入postgres数据库。我正在使用.lastProgress和其他由pyspark提供的标准指标来记录日志。writestream方法和我的日志尝试如下所示。query_progress) print("status ", que

浏览 15提问于2020-11-18得票数 2

回答已采纳

2回答

是否可以在Azure上远程运行流式映射reduce作业？

、、、、

如何使用C#在Azure群集上远程运行流式映射Reduce作业？我的映射器和缩减程序都是用Java或C++编写的。.Net C# SDK的作业执行方法在输入中接受JobType，因此我无法指定基于C++和Java的映射器/减少器的类型。还有另一个类StreamingProcessExecutor，它看起来适合我的情况，但是没有在输入<e

浏览 1提问于2013-08-19得票数 0

2回答

如何阻止spark结构化流媒体每次列出S3存储桶中的所有文件

、

我在pyspark上有一个结构化的流式作业，它在filesource上做一些聚合。我有一个kinesis firehose将来自IoT类型应用程序的数据组合在一起，并将S3位置上的数据作为每分钟一个文件存储在以下文件夹结构中的不同文件夹中-我的spark结构流作业似乎列

浏览 2提问于2018-06-15得票数 8

1回答

流式作业失败-状态架构不兼容问题

、

我的流作业现在失败了，错误如下，流作业几乎工作了2个月，而且它是完全无状态的转换，只需要将新行追加到目标增量表中。在流式传输之前，我手动提供了csv文件的模式，甚至验证了流式作业模式和下游表模式都与数据类型完全匹配。return_value = getattr(self.pool[

浏览 2提问于2021-06-11得票数 1

2回答

5分钟Spark批处理作业与流作业

、

我正在试着找出什么是更好的方法。我有一个火花批处理作业，这是计划运行每5分钟，它需要2-3分钟来执行。由于已经添加了对动态分配spark.streaming.dynamicAllocation.enabled的支持，将其设置为每5分钟从源拉取数据的流式作业是一个好主意吗？在流/批处理作业之间进行选择时，我应该记住哪些事项？

浏览 0提问于2019-07-24得票数 0

1回答

Azure Databricks存储或数据湖

、、

我正在创建一个结构化的流式作业，它将其数据存储在databricks增量数据库中。我面临的选择是将检查点位置和来自增量数据库的数据存储在以下两个位置之一中: 1.正常的dbfs位置，如“/”和“delta.mydatabase”2.来自数据湖的挂载目录，如“/mnt/mydatalake/delta.mycheckpointlocation”

浏览 4提问于2018-11-20得票数 1

1回答

优化命令对结构化流式作业正在写入的Delta lake表没有帮助

、

我有一个结构化的流式作业，它从事件中心读取，并将增量湖表作为/mytablepath写入，该表存储在Azure blob存储中。在过去两个月的生产运行中，它已经在存储中创建了大约1000个小文件，每个文件只有2-3行。我尝试在增量湖表(Path)上运行优化命令，但即使在blob存储上文件数量没有减少，且当我在notebook中的表上运行任何查询时，它仍然

浏览 1提问于2020-02-20得票数 1

1回答

使用Spark每小时消费一个Kafka主题

、、、

我想批量消费一个Kafka主题，我想每小时阅读一次Kafka主题，并阅读最新的每小时数据。kafka.bootstrap.servers", hostAddress) .load() 但它总是读取前20个数据行，而这些行是从头开始的，所以它永远不会选择最新的数据行。如何使用scala和spark每小时阅读最新的行？

浏览 4提问于2021-03-10得票数 0

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中<

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

能实现什么？

、、

我正在阅读Hadoop教程，并得出以下浅显的理解。有人能帮我确认一下我的理解是否正确吗？ from input_file map(

浏览 3提问于2015-11-12得票数 0

回答已采纳

1回答

PySpark打印到控制台

、、

在dataproc服务器上运行PySpark作业时，如下所示我的打印记录没有出现在我的终端上。在云上运行作业时，有没有办法将数据输出到PySpark中的终端上？

浏览 0提问于2016-05-24得票数 10

回答已采纳

2回答

无法导入模块'lambda_function'：没有名为'pyspark‘的模块

、、

我正在尝试使用AWS Lambda函数运行我的PySpark作业代码。下面是错误:无法导入模块'lambda_function'：没有名为'pyspark‘的模块我的PySpark工作具有以下导入。那么，我如何将下面的库导入到我的Lambda函数中呢？如何在Lambda函数中安装这些？from pyspark.sql import

浏览 0提问于2018-12-11得票数 0

2回答

将命令行参数提交给气流中的pyspark作业。

、、

我在GCP Dataproc上有一个可以在气流中触发的火花放电作业，如下所示： "placement": {"cluster_name": "my_cluster_name&qu

浏览 13提问于2022-03-25得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何实时调优spark作业？