Spark Structed Streaming从kafka读取嵌套的json并将其扁平化

Spark Structured Streaming是Apache Spark的一个模块，用于处理实时流数据。它提供了一种简单且高效的方式来处理流式数据，并将其转换为结构化的数据形式。

在处理实时流数据时，Spark Structured Streaming可以从Kafka读取嵌套的JSON数据，并将其扁平化。具体步骤如下：

导入必要的库和模块：

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

创建SparkSession对象：

val spark = SparkSession.builder()
  .appName("StructuredStreamingExample")
  .master("local[*]")
  .getOrCreate()

定义JSON模式（Schema）：

val schema = StructType(Seq(
  StructField("id", StringType),
  StructField("name", StringType),
  StructField("age", IntegerType),
  StructField("address", StructType(Seq(
    StructField("street", StringType),
    StructField("city", StringType),
    StructField("state", StringType)
  )))
))

从Kafka读取流数据：

val kafkaDF = spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "kafka_server:9092")
  .option("subscribe", "topic_name")
  .load()

解析嵌套的JSON数据：

val jsonDF = kafkaDF.selectExpr("CAST(value AS STRING)")
  .select(from_json($"value", schema).as("data"))
  .select("data.*")

将嵌套的JSON数据扁平化：

val flattenedDF = jsonDF.select(
  $"id",
  $"name",
  $"age",
  $"address.street".as("street"),
  $"address.city".as("city"),
  $"address.state".as("state")
)

定义输出操作，例如将扁平化后的数据写入到文件系统或其他外部系统：

val query = flattenedDF.writeStream
  .format("console")
  .outputMode("append")
  .start()

query.awaitTermination()

在这个例子中，我们使用Spark Structured Streaming从Kafka读取嵌套的JSON数据，并将其扁平化为一个扁平的表格形式，方便后续的处理和分析。通过定义适当的Schema和选择需要的字段，我们可以根据实际需求来处理和转换数据。

对于腾讯云的相关产品和产品介绍链接地址，可以参考以下内容：

腾讯云消息队列 CKafka：提供高可靠、高吞吐量的消息队列服务，可用于实时流数据的传输和处理。
腾讯云云数据库 CDB：提供可扩展的云数据库服务，可用于存储和管理结构化数据。
腾讯云云服务器 CVM：提供可靠、安全的云服务器实例，可用于运行Spark和其他计算任务。
腾讯云对象存储 COS：提供高可靠、低成本的对象存储服务，可用于存储和管理大规模的数据文件。

请注意，以上仅为示例，实际选择和使用云计算产品应根据具体需求和情况进行评估和决策。

相关·内容

Spark Structured Streaming 使用总结

2.2 Spark SQL转数据格式 Spark SQL支持以Parquet，ORC，JSON，CSV和文本格式读取和写入数据，并且Spark包中还存在大量其他连接器，还可以使用JDBC DataSource...: 星号（*）可用于包含嵌套结构中的所有列。...例如，如果我们想要准确地获取某些其他系统或查询中断的位置，则可以利用此选项 3.2 Structured Streaming 对Kafka支持从Kafka中读取数据，并将二进制流数据转为字符串： #...第一步我们使用from_json函数读取并解析从Nest摄像头发来的数据 schema = StructType() \ .add("metadata", StructType() \ ....做多个流查询(streaming queries) 3.3.4 批量查询并汇报这里直接使用read方法去做批量查询，用法与readStream类似 report = spark \ .read \

9.1K6 1

Structured Streaming教程(2) —— 常用输入与输出

默认提供下面几种类型： File：文件数据源 file数据源提供了很多种内置的格式，如csv、parquet、orc、json等等，就以csv为例: package xingoo.sstreaming...kafka数据源这个是生产环境或者项目应用最多的数据源，通常架构都是：应用数据输入-->kafka-->spark streaming -->其他的数据库由于kafka涉及的内容还比较多，因此下一篇专门介绍...kafka的集成。...这种模式会把新的batch的数据输出出来， update，把此次新增的数据输出，并更新整个dataframe。有点类似之前的streaming的state处理。...输出的类型 Structed Streaming提供了几种输出的类型： file，保存成csv或者parquet noAggDF .writeStream .format("parquet")

1.4K0 0

流式计算常见模块用法说明

Kafka Compositor { "name": "streaming.core.compositor.spark.streaming.source.KafkaStreamingCompositor...主题，可以多个，按逗号分隔 metadata.broker.list Kafka Broker地址 auto.offset.reset 重头消费还是从最新消费 MockInputStreamCompositor...", "params": [{"a":"$['store']['book'][0]['title']"}] } 从JSON里抽取字段，映射到新的列名上。...主要是对复杂JSON结构进行扁平化。...", "params": [{ "tableName": "test" }] } 把字符串(JSON格式)的数据注册成一张表。

1.3K2 0

Flink or Spark?实时计算框架在K12场景的应用实践

首先会将数据实时发送到 Kafka 中，然后再通过实时计算框架从 Kafka 中读取数据，并进行分析计算，最后将计算结果重新输出到 Kafka 另外的主题中，以方便下游框架使用聚合好的结果。...下游框架从 Kafka 中拿到聚合好的数据，并实时录入到 OLTP 的业务库中（例如：MySQL、UDW、HBase、ES等），以便于接口将想要的结果实时反馈给前端。...接下来，从 Kafka 中实时读取答题数，并生成 streaming-DataSet 实例，代码如下所示： val inputDataFrame1 = spark .readStream .format...", "test_topic_learning_1") .load() （3）进行 JSON 解析从 Kafka 读取到数据后，进行 JSON 解析，并封装到 Answer 实例中，代码如下所示...中体现，得益于此，UFlink SQL 也同样支持纯 SQL 环境下进行 JOIN 操作、维表JOIN操作、自定义函数操作、JSON数组解析、嵌套JSON解析等。

8421 0

看了这篇博客，你还敢说不会Structured Streaming？

Socket source (for testing): 从socket连接中读取文本内容。 File source: 以数据流的方式读取一个目录中的文件。...支持text、csv、json、parquet等文件类型。 Kafka source: 从Kafka中拉取数据,与0.10或以上的版本兼容，后面单独整合Kafka。...接着回到IDEA的控制台，就可以发现Structured Streaming已经成功读取了Socket中的信息，并做了一个WordCount计算。 ?...看到上面的效果说明我们的Structured Streaming程序读取Socket中的信息并做计算就成功了 2.1.2.读取目录下文本数据 spark应用可以监听某一个目录，而web服务在这个目录上实时产生日志文件...Spark\\tmp") // 查询JSON文件中的数据,并将过滤出年龄小于25岁的数据，并统计爱好的个数，并排序 val resultDF: Dataset[Row] = fileDatas.filter

1.6K4 0

Spark Streaming 2.2.0 Input DStreams和Receivers

Streaming 会监视 dataDirectory 目录并处理在该目录中创建的任何文件（不支持嵌套目录中写入的文件）。...因此，如果文件被连续追加数据，新的数据将不会被读取。...如果你真的想在 Spark shell 中使用它们，那么你必须下载相应的 Maven 组件的JAR及其依赖项，并将其添加到 classpath 中。...介绍一下常用的高级数据源： Kafka：Spark Streaming 2.1.0与Kafka代理版本0.8.2.1或更高版本兼容。有关更多详细信息，请参阅Kafka集成指南。...输入DStreams也可以从自定义数据源中创建。如果你这样做，需要实现一个自定义接收器（Receiver），可以从自定义数据源接收数据，并推送到Spark。有关详细信息，请参阅自定义接收器指南。

8232 0

Spark Structured Streaming + Kafka使用笔记

这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版) spark 2.3.0 1....” 用于 batch（批处理） streaming 和 batch 当一个查询开始的时候, 或者从最早的偏移量：“earliest”,或者从最新的偏移量：“latest”,或JSON字符串指定为每个topicpartition...，或者从最新的偏移量：“latest”, 或者为每个topic分区指定一个结束偏移的json字符串。...解析数据对于Kafka发送过来的是JSON格式的数据，我们可以使用functions里面的from_json()函数解析，并选择我们所需要的列，并做相对的transformation处理。...这些需要特别注意的一点是，如 Append 模式一样，本执行批次中由于（通过 watermark 机制）确认 12:00-12:10 这个 window 不会再被更新，因而将其从 State 中去除，但没有因此产生输出

1.6K2 0

Structured Streaming快速入门详解（8）

接着上一篇《Spark Streaming快速入门系列（7）》，这算是Spark的终结篇了，从Spark的入门到现在的Structured Streaming，相信很多人学完之后，应该对Spark摸索的差不多了...然而在structured streaming的这种模式下，spark会负责将新到达的数据与历史数据进行整合，并完成正确的计算操作，同时更新result table，不需要我们去考虑这些事情。...Socket source (for testing): 从socket连接中读取文本内容。 File source: 以数据流的方式读取一个目录中的文件。...支持text、csv、json、parquet等文件类型。 Kafka source: 从Kafka中拉取数据,与0.10或以上的版本兼容，后面单独整合Kafka 2.1.1....读取目录下文本数据 spark应用可以监听某一个目录，而web服务在这个目录上实时产生日志文件，这样对于spark应用来说，日志文件就是实时数据 Structured Streaming支持的文件类型有

1.4K3 0

Note_Spark_Day12： StructuredStreaming入门

04-[理解]-偏移量管理之重构代码实际项目开发中，为了代码重构复用和代码简洁性，将【从数据源读取数据、实时处理及结果输出】封装到方法【processData】中，类的结构如下： Streaming...Streaming不足 StructuredStreaming结构化流：第一点、从Spark 2.0开始出现新型的流式计算模块第二点、Spark 2.2版本，发布Release版本，...这种设计让Spark Streaming面对复杂的流式处理场景时捉襟见肘。...Query，输出的结果；  第五行、当有新的数据到达时，Spark会执行“增量"查询，并更新结果集；该示例设置为CompleteMode，因此每次都将所有数据输出到控制台；使用Structured...Streaming处理实时数据时，会负责将新到达的数据与历史数据进行整合，并完成正确的计算操作，同时更新Result Table。

1.4K1 0

Spark Streaming 与 Kafka0.8 整合

与所有接收方一样，通过 Receiver 从 Kafka 接收的数据存储在 Spark executors 中，然后由 Spark Streaming 启动的作业处理数据。...或者，你也可以从 Maven 仓库中下载 spark-streaming-kafka-0-8-assembly 的JAR，并将其添加到 spark-submit -jars 中。 2....当处理数据的作业启动后，Kafka 的简单消费者API用于从 Kafka 中读取定义的偏移量范围（类似于从文件系统读取文件）。...这是传统的从　Kafka　上消费数据的方式。...一个重要的配置是 spark.streaming.kafka.maxRatePerPartition，每个 Kafka partition 使用 direct API 读取的最大速率（每秒消息数）。

2.3K2 0

Structured Streaming

Spark一直处于不停的更新中，从Spark 2.3.0版本开始引入持续流式处理模型后，可以将原先流处理的延迟降低到毫秒级别。...在无界表上对输入的查询将生成结果表，系统每隔一定的周期会触发对无界表的计算并更新结果表。如图Structured Streaming编程模型。...（二）两种处理模型 1、微批处理 Structured Streaming默认使用微批处理执行模型，这意味着Spark流计算引擎会定期检查流数据源，并对自上一批次结束后到达的新数据执行批量查询...数据到达和得到处理并输出结果之间的延时超过100毫秒。 2、持续处理模型 Spark从2.3.0版本开始引入了持续处理的试验性功能，可以实现流计算的毫秒级延迟。...在持续处理模式下，Spark不再根据触发器来周期性启动任务，而是启动一系列的连续读取、处理和写入结果的长时间运行的任务。

390 0

学习笔记:StructuredStreaming入门（十二）

04-[理解]-偏移量管理之重构代码实际项目开发中，为了代码重构复用和代码简洁性，将【从数据源读取数据、实时处理及结果输出】封装到方法【processData】中，类的结构如下： Streaming...Streaming不足 StructuredStreaming结构化流：第一点、从Spark 2.0开始出现新型的流式计算模块第二点、Spark 2.2版本，发布Release版本，...这种设计让Spark Streaming面对复杂的流式处理场景时捉襟见肘。...，输出的结果；第五行、当有新的数据到达时，Spark会执行“增量"查询，并更新结果集；该示例设置为CompleteMode，因此每次都将所有数据输出到控制台；使用Structured Streaming...处理实时数据时，会负责将新到达的数据与历史数据进行整合，并完成正确的计算操作，同时更新Result Table。

1.8K1 0

Flink集成Iceberg小小实战

我们可以简单理解为他是基于计算层（flink、spark）和存储层（orc、parqurt）的一个中间层，我们可以把它定义成一种“数据组织格式”，Iceberg将其称之为“表格式”也是表达类似的含义。...用flink或者spark写入iceberg，然后再通过其他方式来读取这个表，比如spark、flink、presto等。 ?...Iceberg优势增量读取处理能力：Iceberg支持通过流式方式读取增量数据，支持Structed Streaming以及Flink table Source；支持事务（ACID），上游数据写入即可见...Flink流式读 Iceberg支持处理flink流式作业中的增量数据，该数据从历史快照ID开始： -- Submit the flink job in streaming mode for current...批量读这个例子从Iceberg表读取所有记录，然后在flink批处理作业中打印到stdout控制台。

5.9K6 0

Note_Spark_Day13：Structured Streaming(内置数据源、自定义Sink（2种方式）和集成Kafka)

文件数据源（File Source）：将目录中写入的文件作为数据流读取，支持的文件格式为：text、csv、json、orc、parquet 可以设置相关可选参数：演示范例：监听某一个目录...{IntegerType, StringType, StructType} /** * 使用Structured Streaming从目录中读取文件数据：统计年龄小于25岁的人群的爱好排行榜 */...{DataFrame, SparkSession} /** * 使用Structured Streaming从Kafka实时读取数据，进行词频统计，将结果打印到控制台。...Kafka 消费原始的流式数据，经过ETL后将其存储到Kafka Topic中，以便其他业务相关应用消费数据，实时处理分析，技术架构流程图如下所示：如果大数据平台，流式应用有多个，并且处理业务数据是相同的...* 1、从KafkaTopic中获取基站日志数据（模拟数据，JSON格式数据） * 2、ETL：只获取通话状态为success日志数据 * 3、最终将ETL的数据存储到Kafka Topic

2.6K1 0

用 Kafka、Spark、Airflow 和 Docker 构建数据流管道指南

数据检索与转换 get_streaming_dataframe：从 Kafka 获取具有指定代理和主题详细信息的流数据帧。...主执行该 main 函数协调整个过程：初始化 Spark 会话、从 Kafka 获取数据、转换数据并将其流式传输到 S3。 6....访问 Airflow Bash 并安装依赖项我们应该将脚本移动kafka_stream_dag.py到文件夹下以便能够运行 DAG 使用提供的脚本访问 Airflow bash 并安装所需的软件包：kafka_streaming_service.py...9.启动 Spark Master 并下载 JAR 访问 Spark bash，导航到jars目录并下载必要的 JAR 文件。...从收集随机用户数据开始，我们利用 Kafka、Spark 和 Airflow 的功能来管理、处理和自动化这些数据的流式传输。

1.2K1 0

Spark Streaming 与 Kafka 整合的改进

然而，对于允许从数据流中的任意位置重放数据流的数据源（例如 Kafka），我们可以实现更强大的容错语义，因为这些数据源让 Spark Streaming 可以更好地控制数据流的消费。...连续不断地从 Kafka 中读取数据，这用到了 Kafka 高级消费者API。...在出现故障时，这些信息用于从故障中恢复，重新读取数据并继续处理。 ?...之后，在执行每个批次的作业时，将从 Kafka 中读取与偏移量范围对应的数据进行处理（与读取HDFS文件的方式类似）。这些偏移量也能可靠地保存（）并用于重新计算数据以从故障中恢复。 ?...请注意，Spark Streaming 可以在失败以后重新读取和处理来自 Kafka 的流片段以从故障中恢复。

7872 0

SparkStreaming读Kafka数据写HBase

Spark Streaming读取HBase的数据并写入到HDFS》，关于SparkStreaming的应用场景很多，本篇文章Fayson主要介绍使用Scala语言开发一个SparkStreaming应用读取...Kafka数据并写入HBase。...内容概述 1.环境准备 2.编写SparkSteaming代码读取Kafka数据并写入HBase 3.流程测试 4.总结测试环境 1.CM和CDH版本为5.12.1 2.采用root用户操作前置条件...* describe: SparkStreaming 应用实时读取Kafka数据，解析后存入HBase * 使用spark-submit的方式提交作业 spark-submit --class...5.总结 ---- 1.由于Spark中默认没有Spark-Streaming-Kafka的依赖包，需要将相应的依赖包添加到/opt/cloudera/parcels/CDH/jars目录下，然后在spark-env.sh

6.4K3 0

Spark2Streaming读Kafka并写入到HBase

的示例如《Spark2Streaming读Kerberos环境的Kafka并写数据到HBase》、《Spark2Streaming读Kerberos环境的Kafka并写数据到Kudu》及《Spark2Streaming...: com.cloudera.streaming * describe: 非Kerberos环境中Spark2Streaming应用实时读取Kafka数据，解析后存入HBase * 使用spark2...5.总结 1.本示例中Spark2Streaming读取非Kerberos环境的Kafka集群，使用的是spark-streaming-kafka0.10.0版本的依赖包，在Spark中提供两个的另外一个版本的为...环境的Kafka并写数据到HBase》《Spark2Streaming读Kerberos环境的Kafka并写数据到HDFS》《Spark2Streaming读Kerberos环境的Kafka并写数据到...Hive》《Spark2Streaming读Kerberos环境的Kafka并写数据到Kudu》《SparkStreaming读Kafka数据写HBase》《SparkStreaming读Kafka

9764 0

Note_Spark_Day14：Structured Streaming(以结构化方式处理流式数据，底层分析引擎SparkSQL引擎)

0、数据源（Source）支持4种数据源：TCP Socket（最简单）、Kafka Source（最常用） - File Source：监控某个目录，当目录中有新的文件时，以流的方式读取数据...- foreachBatch，表示针对每批次数据输出，可以重用SparkSQL中数据源的输出 3、集成Kafka（数据源Source和数据终端Sink）既可以从Kafka消费数据，也可以向Kafka...从Kafka读取数据，底层采用New Consumer API val iotStreamDF: DataFrame = spark.readStream .format("kafka")...从Kafka读取数据，底层采用New Consumer API val iotStreamDF: DataFrame = spark.readStream .format("kafka")...06 * 这条数据发送到Kafka，又到了Spark Streaming中处理，已经是10：08，这个处理的时间就是process Time。

2.5K2 0

Spark Streaming应用与实战全攻略

1.3 为什么选择Kafka和Spark streaming 由于Kafka它简单的架构以及出色的吞吐量； Kafka与Spark streaming也有专门的集成模块； Spark的容错,以及现在技术相当的成熟...二、通过代码实现具体细节，并运行项目然后就开始写代码了，总体思路就是： put数据构造json数据，写入Kafka； Spark Streaming任务启动后首先去Zookeeper中去读取offset...,组装成fromOffsets； Spark Streaming 获取到fromOffsets后通过KafkaUtils.createDirectStream去消费Kafka的数据；读取Kafka数据返回一个...Streaming Batches一些异常情况图查看摸个具体stage： Streaming具体的stage信息从图中, 我们可以看到Spark总共调度分发了两批次task set, 每个task...所以把“spark.locality.wait”果断调小，从1秒到500毫秒，最后干脆调到100毫秒算了。

1.2K6 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云