Spark生态圈

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

支持的数据源：hdfs、hive、hbase、kafka、mysql、es、mongo

基于SparkSQL实现的一套即席查询服务

我们可以利用不同的存储级别存储每一个被持久化的RDD。可以存储在内存中，也可以序列化后存储在磁盘上等方式。Spark也会自动持久化一些shuffle操作（如reduceByKey）中的中间数据，即使用户没有调用persist方法。这样的好处是避免了在shuffle出错情况下，需要重复计算整个输入。

[spark] RDD缓存源码解析

在DAGScheduler划分为Stage并以TaskSet的形式提交给TaskScheduler后，再由TaskScheduler通过TaskSetMagager对taskSet的task进行调度与执行。

[spark] TaskScheduler 任务提交与调度源码解析

Spark数据本地化即移动计算而不是移动数据，而现实又是残酷的，不是想要在数据块的地方计算就有足够的资源提供，为了让task能尽可能的以最优本地化级别（Locality Levels）来启动，Spark的延迟调度应运而生，资源不够可在该Locality Levels对应的限制时间内重试，超过限制时间后还无法启动则降低Locality Levels再尝试启动……

[spark] 数据本地化及延迟调度

Spark Application只有遇到action操作时才会真正的提交任务并进行计算，DAGScheduler 会根据各个RDD之间的依赖关系形成一个DAG，并根据ShuffleDependency来进行stage的划分，stage包含多个tasks，个数由该stage的finalRDD决定，stage里面的task完全相同，DAGScheduler 完成stage的划分后基于每个Stage生成TaskSet，并提交给TaskScheduler，TaskScheduler负责具体的task的调度，在Worker节点上启动task。

[spark] DAGScheduler划分stage源码解析

在文章TaskScheduler 任务提交与调度源码解析 中介绍了Task在executor上的逻辑分配，调用TaskSchedulerImpl的resourceOffers()方法，得到了TaskDescription序列的序列Seq[Seq[TaskDescription]]，即对某个task需要在某个executor上执行的描述，仅仅是逻辑上的，还并未真正到executor上执行，本文将从源码角度解析Task是怎么被分配到executor上执行的。

[spark] Task执行流程

DAGScheduler在划分完Stage后([spark] DAGScheduler划分stage源码解析 )，将会通过submitStage(finalStage)来提交stage：

[spark] DAGScheduler 提交stage源码解析

Rundeck(http://rundeck.org)是开源软件，可以帮助你自动化管理日常操作程序，Rundeck提供了许多特性，将缓解耗时的繁重任务。Rundeck允许在任意数量的节点上运行，并配套有非常方便的可视化界面，Rundeck还包括其他功能，如：访问控制、工作流构建、调度、日志记录等。另外有类似作用的有cdh的oozie，但个人觉得这个用起来来还方便简洁些。

自动化管理工具Rundeck

每个具体的RDD都得实现compute 方法，该方法接受的参数之一是一个Partition 对象，目的是计算该分区中的数据。
 我们通过map方法来看具体的实现：

[spark] RDD解析

最近看到一篇非常不错的关于新词发现的论文--互联网时代的社会语言学：基于SNS的文本数据挖掘，迫不及待的想小试牛刀。得先有语料啊……

爬虫框架Scrapy（例子）前言安装实战

为了让Spark Streaming消费kafka的数据不丢数据，可以创建Kafka Direct DStream，由Spark Streaming自己管理offset，并不是存到zookeeper。启用S​​park Streaming的 checkpoints是存储偏移量的最简单方法，因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS，以便在故障时可以恢复。如果发生故障，Spark Streaming应用程序可以从checkpoints偏移范围读取消息。

Spark Streaming管理Kafka偏移量前言从ZK获取offset

功能
分布式的搜索引擎和数据分析引擎
全文检索，结构化检索，数据分析
对海量数据进行近实时的处理
环境搭建
从官网下载压缩包 elasticsearch-5.6.1.tar.gz；
解压 tar -zxvf elasticsearch-5.6.1.tar.gz $ES_HOME
因es只能由除root以外的用户启动，则给予相应的权限，如给common用户，chown -R common:root elasticsearch-5.6.1
配置，vi $ES_HOME/config/elasticsearch.

Elasticsearch5.6搭建及拼音中文混合搜索实现

5、测试dataframe的read和save方法（注意load方法默认是加载parquet文件）

SparkSQL常用操作

推测任务是指对于一个Stage里面拖后腿的Task，会在其他节点的Executor上再次启动这个task，如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果，同时会干掉其他Executor上运行的实例。spark推测式执行默认是关闭的，可通过spark.speculation属性来开启。

[spark] spark推测式执行

spark应用程序的调度体现在两个地方，第一个是Yarn对spark应用间的调度，第二个是spark应用内（同一个SparkContext）的多个TaskSetManager的调度，这里暂时只对应用内部调度进行分析。

[spark] 调度模式（FIFO&FAIR）

在spark应用程序中，常常会遇到运算量很大经过很复杂的 Transformation才能得到的RDD即Lineage链较长、宽依赖的RDD，此时我们可以考虑将这个RDD持久化。

[spark] Checkpoint 源码解析

在文章Task执行流程 中介绍了task是怎么被分配到executor上执行的，本文讲解task成功执行时将结果返回给driver的处理流程。

[spark] Task成功执行的结果处理

Spark Streaming 是基于Spark Core将流式计算分解成一系列的小批处理任务来执行。

[spark streaming] DStream 和 DStreamGraph 解析

在Spark Streaming里，总体负责任务的动态调度是JobScheduler，而JobScheduler有两个很重要的成员：JobGenerator 和 ReceiverTracker。JobGenerator 负责将每个 batch 生成具体的 RDD DAG ，而ReceiverTracker负责数据的来源。

[spark streaming] ReceiverTracker 数据产生与存储

Spark Streaming Job的生成是通过JobGenerator每隔 batchDuration 长时间动态生成的，每个batch 对应提交一个JobSet，因为针对一个batch可能有多个输出操作。

[spark streaming] 动态生成 Job 并提交执行

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了Spark生态圈专栏，为你提供了Spark生态圈的相关文章，致力于帮助开发者快速成长与发展。

Spark生态圈

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐