如何在不中断流式作业的情况下更改spark spark streamning事件中的json模式？

、、、、

我有一个用例，我需要在不中断流作业的情况下更改JSON的模式。我正在使用一个conf文件，其中我提到了所有需要的模式。我已经尝试了缓存和广播变量，通过使用单独的流水线进行持久化和非持久化，但仍然没有成功。提前感谢您的帮助！

浏览 15提问于2021-08-30得票数 0

6回答

Spark structured streaming kafka转换不带模式的JSON (推断模式)

、、、

我读到Spark Structured Streaming不支持将Kafka消息读取为JSON的模式推断。有没有一种方法可以像Spark Streaming一样检索模式：dataFrame.printschema

浏览 1提问于2018-01-21得票数 13

5回答

Spark Dataframe验证拼接写入的列名

、、、、

我正在使用从JSON事件流转换而来的Dataframe来处理事件，这些数据帧最终会被写成Parquet格式。但是，一些JSON事件在键中包含空格，我希望在将其转换为Parquet之前记录和过滤/删除数据帧中的此类事件，因为;{}()\n\t=在拼图方案(CatalystSchemaConverter)中被视为特殊字符，如中所列1下面因此不应允许在列名中使用。如何在Data

浏览 188提问于2016-07-05得票数 17

1回答

我正在运行一个流式应用程序和处理数据从卡夫卡到卡夫卡使用火花。如果我使用的是最新的，那么它的工作，如预期和运行，没有任何问题。但是在源方面，我们已经完成了批量事务(20万)，并且使用最早的，然后处理数据。在这种情况下，我们的火花作业不是处理数据，它在三个阶段后被卡住了。有人能建议我如何处理这个问题吗?num-executors 6 --driver-memory 8G --executor-cor

浏览 7提问于2022-05-17得票数 0

1回答

使用pyspark - Databricks处理来自事件中心的事件

、、、

我有一个Mongo change流(一个pymongo应用程序)，它不断地获取集合中的更改。这些由程序接收的更改文档将发送到Azure事件中心。Spark notebook必须在文档进入Event Hub时读取文档，并与该集合的spark表进行模式匹配(将文档中的字段与spark表列进行匹配)。如果可以使用from_json将JSON</

浏览 1提问于2019-01-12得票数 0

2回答

火花调度模式和应用队列有什么区别？

、、、

在测试多个作业同时运行或稍后提交的较小作业时火花作业的行为时。我在spark中遇到了两个设置。一种是可用的调度模式，如下图所示：其中一个在调度程序中，如下所示我想了解两个设置和抢占之间的区别。我的要求是，在处理更大的工作时，在两者之间提交的小工作必须获得资源，而不需要等待更长时间。

浏览 2提问于2016-08-10得票数 1

回答已采纳

1回答

应用程序中的火花调度:性能问题

、、、、

(在我的例子中，每个Spark应用程序都可以根据名称执行非常具体的任务，这取决于业务规则)。默认情况下，的调度程序以FIFO的方式运行作业。如果队列顶部的作业不需要使用整个集群，那么以后的作业可以立即开始运行. 这样的解决方案对我有效。，但是，我发现中的</

浏览 2提问于2020-03-01得票数 5

回答已采纳

1回答

记录中间数据集的已处理指标

我已经使用DATASET API创建了一个spark作业。在HDFS上收集最终结果之前，会执行一系列操作。谢谢

浏览 0提问于2016-12-08得票数 0

2回答

星火错误的蜂巢java.lang.NoSuchFieldError: SPARK_RPC_SERVER_ADDRESS

、、

使用简单的select * from table查询在Spark上运行Hive，运行平稳，但是在联接和和时，ApplicationMaster返回关联的火花容器的堆栈跟踪： at org.apache.hive.spark.client.rpc.RpcConfigurationat org.apache.hive.spark.cl

浏览 2提问于2019-03-29得票数 2

回答已采纳

3回答

pyspark:将schemaRDD保存为json文件

、、

我正在寻找一种方法，以JSON格式从Apache Spark导出数据到各种其他工具。我想肯定有一种非常简单的方法来做这件事。其中文件的每一行都是一个JSON对象。这类文件可以很容易地读取到PySpark中，使用然后看起来像(通过调用jsonRDD.collect())： [Row(key=value_a1在读取Spark用户列表条目后，我会期望一种“自动”转换回<e

浏览 0提问于2014-11-04得票数 7

回答已采纳

6回答

Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么？

、、

看看谷歌的云服务，DataProc似乎也可以做同样的事情。为什么谷歌同时提供这两种服务？

浏览 1提问于2017-09-27得票数 66

4回答

Google Dataflow对Apache Spark

、、、

我正在调查、Google、Dataflow、和Apache ，以决定哪种解决方案更适合我们的大数据分析业务需求。我发现在spark平台中有Spark SQL和MLlib来进行结构化数据查询和机器学习。我想知道谷歌数据流平台中是否有相应的解决方案？

浏览 2提问于2015-11-04得票数 32

回答已采纳

3回答

斯卡拉星火中的Encoder[Row]

、、

我试图在Spark2.0.0中的Dataset[Row] (DataFrame)上执行一个简单的映射。像这样简单的事情df.map { r: Row => r } 方法map：(隐式证据$7: EncoderRow)的参数不足。如果首先转换为RDD，一切都很好，但是不应该有一种像元组类型ds.rdd.map { r: Row => r }那样容易获

浏览 5提问于2016-09-30得票数 2

1回答

launch_container.sh中纱线如何执行PYSPARK环境设置

、、、

在分析用于火花作业的纱线launch_container.sh日志时，我对日志的某些部分感到困惑。我会在这里一步一步地指出这些要求当您将提交一个火花作业时，在纱线上提交具有-pyfiles和--文件的集群模式：。除了这些文件，pyspark.zip和py4j-version_number.zip .lib从$SPARK_ home /python/lib也被复制到用户hadoop主目录下创建的.sparkStaging如果我们已经

浏览 5提问于2020-08-15得票数 0

2回答

火花流作业的可靠检查点(保持复杂状态)

、

我们在Red 4.4.7上使用Spark1.6和JVM 1.6来运行我们的火花流应用程序/作业。我们的一些流作业使用复杂的状态，我们有scala类来表示它们。但是，在测试作业的升级周期时，我们面临以下一些问题。由于流式作业将永远运行，在设计一个易于升级的应用程序时需要帮助。我正在检查作业无法从检查点重新启动的确切用例。仅仅重新启动作业而不改变任何东西，

浏览 4提问于2016-06-17得票数 5

回答已采纳

12回答

application_申请报告(状态:已接受) Spark提交永不结束( Spark* 1.2.0在纱线上)*

、、、

我正在运行kinesis plus spark应用程序ec2实例上的命令： ./spark/bin/spark-submit --class org.apache.spark.examples.streaming.myclassname --master yarn-cluster-1.3.1.e/lib/spark-assembly-1.3.1-hadoop2.4.0.jar -> hdfs:/&#x

浏览 3提问于2015-06-14得票数 49

1回答

当您重新启动火花作业时，如果它在输入给kafka的数据中遇到了意外的格式，会发生什么？

、、

假设我正在运行一个火花作业，而且每件事情都很完美。有一天，我的火花工作失败了，因为卡夫卡的数据不一致。不一致可能是数据格式问题或垃圾字符，而这些问题可能是无法处理的。在这种情况下，我们如何解决这个问题？有什么方法可以让我们进入卡夫卡主题并手动修改数据吗？如果我们不修复数据问题并重新启动星火作业，它将读取导致失败的老行，因为我们还没有提交检查点。如何解决卡夫卡主题中的数据问题，以恢复中止的火花作业？

浏览 0提问于2020-05-12得票数 3

回答已采纳

8回答

如何让Spark* web UI保持活动状态？*

在Spark submit的执行结束后，Spark web UI将被终止。有没有办法让它活着？我使用的是Spark 1.2.1。

浏览 7提问于2015-02-23得票数 20

3回答

如何获取Kafka offset，用于结构化查询，实现手动、可靠的offset管理？

、、、、

Spark 2.2引入了Kafka的结构化流媒体源代码。据我所知，它依靠HDFS检查点目录来存储偏移量，并保证“只传递一次”消息。但旧的docks (如)表示，Spark Streaming检查点不能跨应用程序或Spark升级恢复，因此不太可靠。作为一种解决方案，有一种做法是支持将偏移量存储在支持MySQL或RedshiftDB等事务的外部存储中。如果要将Kafka源的偏移量存储到事务型DB中，如何从结构化流批处理

浏览 1提问于2017-09-11得票数 28

回答已采纳

1回答

火花:单元测试-我有一个功能，联合3输入数据集。我应该对它们进行单元测试吗？

、、

:SparkSession):Dataset[Row]={} spark.read.json(somefile)def readThirdDF(spark:SparkSession):Dataset[Row]={ spark.read.json是否检查推断模式是否<e

浏览 2提问于2019-09-23得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark structured streaming kafka转换不带模式的JSON (推断模式)

Spark Dataframe验证拼接写入的列名

火花结构化流作业不处理阶段并显示为挂起状态

使用pyspark - Databricks处理来自事件中心的事件

火花调度模式和应用队列有什么区别？

应用程序中的火花调度:性能问题

记录中间数据集的已处理指标

星火错误的蜂巢java.lang.NoSuchFieldError: SPARK_RPC_SERVER_ADDRESS

pyspark:将schemaRDD保存为json文件

Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么？

Google Dataflow对Apache Spark

斯卡拉星火中的Encoder[Row]

launch_container.sh中纱线如何执行PYSPARK环境设置

火花流作业的可靠检查点(保持复杂状态)

application_申请报告(状态:已接受) Spark提交永不结束( Spark* 1.2.0在纱线上)*

当您重新启动火花作业时，如果它在输入给kafka的数据中遇到了意外的格式，会发生什么？

如何让Spark* web UI保持活动状态？*

如何获取Kafka offset，用于结构化查询，实现手动、可靠的offset管理？

火花:单元测试-我有一个功能，联合3输入数据集。我应该对它们进行单元测试吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐