添加描述
在 Scala 中初始化 Spark
添加描述
最后,关闭 Spark 可以调用 SparkContext 的 stop() 方法,或者直接退出应用(比如通过
System.exit(0) 或者 sys.exit())。
添加描述
添加描述
用户可以使用两种方法创建 RDD: 读取一个外部数据集,或在驱动器程序里分发驱动器程
序中的对象集合( 比如 list 和 set)。
添加描述
添加描述
添加描述
添加描述
添加描述
添加描述
RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。
1. 是一个分区的只读记录的集合;
2. 一个具有容错机制的特殊集;
3. 只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建;
4. 可以分布在集群的节点上,以函数式操作集合的方式,进行各种并行操作
相互依赖:
1. 基于Lineage的高效容错(第n个节点出错,会从第n-1个节点恢复,血统容错);
2. Task如果失败会自动进行特定次数的重试(默认4次);
3. Stage如果失败会自动进行特定次数的重试(可以值运行计算失败的阶段),只计算失败的数据分片;
4. 数据调度弹性:DAG TASK 和资源管理无关;
5. checkpoint;
6. 自动的进行内存和磁盘数据存储的切换;
RDD五大特性
dataset -> RDD
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。