开发者社区

文档建议反馈控制台

腾讯云架构师技术同盟

文章/答案/技术大牛

发布

社区首页 >专栏 >Spark

Spark

原创

大学里的混子

修改于 2019-03-12 10:29:47

修改于 2019-03-12 10:29:47

6030

举报

文章被收录于专栏：LeetCodeLeetCode

添加描述

在 Scala 中初始化 Spark

添加描述

最后，关闭 Spark 可以调用 SparkContext 的 stop() 方法，或者直接退出应用（比如通过

System.exit(0) 或者 sys.exit()）。

添加描述

添加描述

用户可以使用两种方法创建 RDD：读取一个外部数据集，或在驱动器程序里分发驱动器程

序中的对象集合（比如 list 和 set）。

添加描述

添加描述

添加描述

添加描述

添加描述

添加描述

RDD

RDD(Resilient Distributed Datasets,弹性分布式数据集)，是Spark最为核心的概念，自然也是理解Apache Spark 工作原理的最佳入口之一。

RDD的特点：

1. 是一个分区的只读记录的集合；

2. 一个具有容错机制的特殊集；

3. 只能通过在稳定的存储器或其他RDD上的确定性操作（转换）来创建；

4. 可以分布在集群的节点上，以函数式操作集合的方式，进行各种并行操作

相互依赖：

RDD之所以为“弹性”的特点

1. 基于Lineage的高效容错（第n个节点出错，会从第n-1个节点恢复，血统容错）；

2. Task如果失败会自动进行特定次数的重试（默认4次）；

3. Stage如果失败会自动进行特定次数的重试（可以值运行计算失败的阶段），只计算失败的数据分片；

4. 数据调度弹性：DAG TASK 和资源管理无关；

5. checkpoint；

6. 自动的进行内存和磁盘数据存储的切换；

RDD五大特性

dataset -> RDD

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

评论

登录后参与评论

0 条评论

热度

最新

目录

RDD

RDD的特点：

RDD之所以为“弹性”的特点