前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据入门:Spark Streaming实际应用

大数据入门:Spark Streaming实际应用

作者头像
成都加米谷大数据
修改于 2020-11-30 10:14:35
修改于 2020-11-30 10:14:35
6990
举报
文章被收录于专栏:大数据开发大数据开发

作为Spark负责流计算的核心组件,Spark Streaming是整个Spark学习流程当中非常重要的一块。对于Spark Streaming,作为Spark流计算的实际承载组件,我们也需要更全面的掌握。今天的大数据入门分享,我们就来讲讲Spark Streaming实际应用。

一、关于Spark Streaming

实际上来说,Spark进行数据计算处理,是继承了Hadoop MapReduce的理念,因此从实质定性来说,Spark仍然是一个批处理框架,而非流处理框架。

Spark Streaming由于其本身的扩展性、高吞吐量以及容错能力等特性,能够提供近实时的数据处理。简单来说,Spark Streaming是因为批处理的速度较快而达到了类似实时的效果。

Spark Streaming的近实时处理,也可以理解为微批实时处理,将不断输入的数据流先进行分批,就像坐电梯一样,把一批数据装入电梯,然后一批批的去输送,每一批的间隔是以秒级别的。

二、Sparkstreaming应用场景

基于Spark Streaming优秀的性能表现,在很多的企业级应用场景,如网站监控和网络监控、异常监测、网页点击、用户行为、用户迁移等,都能够给出合理的解决方案。

总的来说,Spark Streaming适用于:

不要求纯实时,不要求强大可靠的事务机制,不要求动态调整并行度的类似场景当中;其次是如果项目需求除了实时计算,还有一定量的批处理任务,那么Spark streaming也能很好地解决。

三、Spark Streaming程序结构

Spark Streaming功能结构上通常包含以下五部分——

1、导入Spark Streaming相关包:

Spark Streaming作为Spark框架上的一个组件,具有很好的集成性。在开发Spark Streaming应用程序时,只需导入Spark Streaming相关包,无需额外的参数配置。

2、创建StreamingContext对象:

同Spark应用程序中的SparkContext对象一样,StreamingContext对象是Spark Streaming应用程序与集群进行交互的唯一通道,其中封装了Spark集群的环境信息和应用程序的一些属性信息。

3、创建InputDStream:

Spark Streaming需要根据数据源类型选择相应的创建DStream的方法。

4、操作DStream:

对于从数据源得到的DStream,用户可以调用丰富的操作对其进行处理。

5、启动与停止Spark Streaming应用程序:

在启动Spark Streaming应用程序之前,DStream上所有的操作仅仅是定义了数据的处理流程,程序并没有真正连接上数据源,也没有对数据进行任何操作,当ssc.start()启动后程序中定义的操作才会真正开始执行。

四、Spark Streaming优缺点

优点:

Spark Streaming基于Spark Core API,因此其能够与Spark中的其他模块保持良好的兼容性,为编程提供了良好的可扩展性;

Spark Streaming是粗粒度的准实时处理框架,一次读取完或异步读完之后处理数据,且其计算可基于大内存进行,因而具有较高的吞吐量;

Spark Streaming采用统一的DAG调度以及RDD,因此能够利用其lineage机制,对实时计算有很好的容错支持;

Spark Streaming的DStream是基于RDD的在流式数据处理方面的抽象,其transformations以及actions有较大的相似性,这在一定程度上降低了用户的使用门槛,在熟悉Spark之后,能够快速上手Spark Streaming。

缺点:

Spark Streaming是准实时的数据处理框架,采用粗粒度的处理方式,当batch time到时才会触发计算,这并非像Storm那样是纯流式的数据处理方式。此种方式不可避免会出现相应的计算延迟。

关于大数据入门,Spark Streaming实际应用,以上就为大家做了简单的介绍了。Spark在大数据学习当中,是非常重要的一部分,也是作为大数据开发工程师必备的技能点,值得多花时间去深入理解和掌握。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
流式计算引擎-Storm、Spark Streaming
目前常用的流式实时计算引擎分为两类:面向行和面向微批处理,其中面向行的流式实时计算引擎的代表是Apache Storm,典型特点是延迟低,但吞吐率也低。而面向微批处理的流式实时计算引擎代表是Spark Streaming,其典型特点是延迟高,但吞吐率也高。
凹谷
2020/04/11
2.6K0
SparkStreaming的介绍及原理
1)离线处理是针对一个批次,这个批次一般情况下都比较大流处理对应的数据是连续不断产生,处理时间间隔非常短的数据
全栈程序员站长
2022/08/31
8840
SparkStreaming的介绍及原理
Spark Streaming场景应用- Spark Streaming计算模型及监控
摘要 Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用Spark Streaming方面的技术架构,并着重讲解Spark Streaming两种计算模型,无状态和状态计算模型以及该两种模型的注意事项;接着介绍了Spark Streaming在监控方面所做的一些事情,最后总结了Spark Streaming的优缺点。 一、概述 数据是非常宝贵的资源,对各级企事业单均有非常高的价值。但是数据的爆炸
小莹莹
2018/04/24
1.5K0
Spark Streaming场景应用- Spark Streaming计算模型及监控
Spark Streaming 场景应用
Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用 Spark Streaming 方面的技术架构,并着重讲解 Spark Streaming 两种计算模型,无状态和状态计算模型以及该两种模型的注意事项;接着介绍了 Spark Streaming 在监控方面所做的一些事情,最后总结了 Spark Streaming 的优缺点。
Spark学习技巧
2018/12/25
1.9K0
适合小白入门Spark的全面教程
1.实时分析 在我们开始之前,让我们来看看美国社交媒体比较有名的企业每分钟产生的数据量。
用户1410343
2018/08/16
6.6K0
适合小白入门Spark的全面教程
Spark Streaming入门
本文将帮助您使用基于HBase的Apache Spark Streaming。Spark Streaming是Spark API核心的一个扩展,支持连续的数据流处理。
大数据弄潮儿
2018/05/15
2.3K0
Spark Streaming入门
春城无处不飞花,小白带你侃SparkStreaming(原理引入篇)
介绍完了SparkSQL,接下来让我们推开SparkStreaming的大门,接收新知识的洗礼。跟刚入坑SparkSQL时一样,让我们来回顾一下Spark的内置模块。
大数据梦想家
2021/01/27
5270
春城无处不飞花,小白带你侃SparkStreaming(原理引入篇)
Spark Streaming
很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息。
Francek Chen
2025/01/22
1180
Spark Streaming
BDCC - Lambda VS Kappa
Lambda架构使用了批处理和流处理两种不同的处理方式来处理数据。数据首先通过流处理层进行实时处理,然后再通过批处理层进行离线处理,最后将两种处理结果合并起来得到最终的结果。Lambda架构的优点是可以同时处理实时和历史数据,并且可以保证数据的一致性,但是需要维护两套不同的代码和基础设施。
小小工匠
2023/05/09
3470
BDCC - Lambda VS Kappa
SparkStreaming学习笔记
        (*)Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高级函数(如map,reduce,join和window)开发的复杂算法进行流数据处理。最后,处理后的数据可以被推送到文件系统,数据库和实时仪表板。而且,您还可以在数据流上应用Spark提供的机器学习和图处理算法。
曼路
2018/10/18
1.1K0
Spark Streaming | Spark,从入门到精通
欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)
美图数据技术团队
2018/09/18
1.1K0
Spark Streaming | Spark,从入门到精通
大数据框架:Spark 生态实时流计算
在Spark框架当中,提起流计算,那么主要就是Spark Streaming组件来负责。在大数据的发展历程当中,流计算正在成为越来越受到重视的趋势,而Spark Streaming流计算也在基于实际需求不断调整。今天的大数据学习分享,我们就主要来讲讲Spark 实时流计算。
成都加米谷大数据
2020/11/20
1.6K0
大数据框架:Spark 生态实时流计算
Apache Spark Streaming技术深度解析
Apache Spark Streaming是Apache Spark生态系统中用于处理实时数据流的一个重要组件。它将输入数据分成小批次(micro-batch),然后利用Spark的批处理引擎进行处理,从而结合了批处理和流处理的优点。这种处理方式使得Spark Streaming既能够保持高吞吐量,又能够处理实时数据流。
小马哥学JAVA
2024/09/14
2580
【Spark Streaming】Spark Day10:Spark Streaming 学习笔记
首先,学习SparkStreaming流式计算模块,以批处理思想处理流式数据,进行实时分析。
Maynor
2021/12/06
1.1K0
【Spark Streaming】Spark Day10:Spark Streaming 学习笔记
Spark Streaming的优化之路——从Receiver到Direct模式
随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析、决策。Spark Streaming是一种分布式的大数据实时计算框架,他提供了动态的,高吞吐量的,可容错的流式数据处理,不仅可以实现用户行为分析,还能在金融、舆情分析、网络监控等方面发挥作用。个推开发者服务——消息推送“应景推送”正是应用了Spark Streaming技术,基于大数据分析人群属性,同时利用LBS地理围栏技术,实时触发精准消息推送,实现用户的精细化运营。此外,个推在应用Spark Streaming做实时处理kafka数据时,采用Direct模式代替Receiver模式的手段,实现了资源优化和程序稳定性提升。
个推君
2019/06/17
1.3K0
图解大数据 | 流式数据处理-Spark Streaming
教程地址:http://www.showmeai.tech/tutorials/84
ShowMeAI
2022/03/08
1.5K1
图解大数据 | 流式数据处理-Spark Streaming
Spark Streaming如何使用checkpoint容错
在互联网场景下,经常会有各种实时的数据处理,这种处理方式也就是流式计算,延迟通常也在毫秒级或者秒级,比较有代表性的几个开源框架,分别是Storm,Spark Streaming和Filnk。 曾经在一个项目里面用过阿里改造后的JStrom,整体感受就是编程略复杂,在不使用Trident Api的时候是不能保证准确一次的数据处理的,但是能保证不丢数据,但是不保证数据重复,我们在使用期间也出现过几次问题,bolt或者worker重启时候会导致大量数据重复计算,这个问没法解决,如果想解决就得使用Trident来保
我是攻城师
2018/05/14
2.9K0
Spark Streaming——Spark第一代实时计算引擎
虽然SparkStreaming已经停止更新,Spark的重点也放到了 Structured Streaming ,但由于Spark版本过低或者其他技术选型问题,可能还是会选择SparkStreaming。 SparkStreaming对于时间窗口,事件时间虽然支撑较少,但还是可以满足部分的实时计算场景的,SparkStreaming资料较多,这里也做一个简单介绍。
大数据流动
2020/08/11
9380
流式计算的代表:Storm、Flink、Spark Streaming
Spark Streaming 巧妙地利用了 Spark 的分片和快速计算的特性,将实时传输进来的数据按照时间进行分段,把一段时间传输进来的数据合并在一起,当作一批数据,再去交给 Spark 去处理。
Michael阿明
2021/09/06
1.2K0
Note_Spark_Day12: StructuredStreaming入门
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6wtQxLP6-1626354186973)(/img/image-20210506154426999.png)]
Maynor
2021/12/07
1.4K0
Note_Spark_Day12: StructuredStreaming入门
相关推荐
流式计算引擎-Storm、Spark Streaming
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档