放在集群中, 利用集群多台计算机来并行处理
2.如何放在集群中运行?...3.如果放在集群中的话, 可能要对整个计算任务进行分解, 如何分解?...HDFS 中读取的, 在计算的过程中读取即可
RDD 至少是需要可以 分片 的, 因为HDFS中的文件就是分片的, RDD 分片的意义在于表示对源数据集每个分片的计算, RDD 可以分片也意味着 可以并行计算...上面提到了可以使用依赖关系来进行容错, 但是如果依赖关系特别长的时候, 这种方式其实也比较低效, 这个时候就应该使用另外一种方式, 也就是记录数据集的状态
在 Spark 中有两个手段可以做到
缓存
Checkpoint...什么叫做弹性分布式数据集
分布式
RDD 支持分区, 可以运行在集群中
弹性
RDD 支持高效的容错
RDD 中的数据即可以缓存在内存中, 也可以缓存在磁盘中, 也可以缓存在外部存储中
数据集
RDD