Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >spark的若干问题

spark的若干问题

作者头像
随机来个数
发布于 2018-04-16 07:44:02
发布于 2018-04-16 07:44:02
7030
举报
文章被收录于专栏:写代码的海盗写代码的海盗

问题1:SPARK与HADOOP之间的关系?

  spark是一种高效处理hadoop分布式数据的处理引擎。借助hadoop的yarn框架,spark就可以运行在hadoop集群中。同时spark也可以处理存储在hdfs、Hbase、Cassandra、hive和所有存储在hadoop中的数据。spark可以采取类似于hadoop的mapreduce的方式处理一般数据,也可以采取stream的方式处理流式数据。

问题2:SPARK支持的开发语言?

  spark支持scala、java和python三种语言。

问题3:SPARK目前可以支持多大的集群?

  目前已知的spark最大集群节点数已经超过1000台。

问题4:SPARK中已经缓存的数据不适合存储在内存时,spark如何处理?

  spark将数据序列化到磁盘中或者spark重新计算内存中的数据。默认情况下,spark采取重新计算的方式,即每次请求内存中的数据时,spark都是重新从磁盘中读取数据到内存,然后重新计算。可以通过修改storage level级别来修改处理方式(默认为MEMORY_AND_DISK)

问题5:spark如何在集群中执行?

  如果集群中每个节点中都存在JAVA执行环境,那么也可以执行纯spark程序。如果你需要在Amazon EC2环境中执行spark程序,那么就需要在每个节点执行EC2 脚本。如果目前没有集群环境,那么可以通过local参数执行单机模式。local[n]中的n代表的是CPU核数,这个n也可以理解成spark并行执行数。

问题6:执行spark时一定需要存在hadoop环境么?

  如果你不需要在集群环境中执行,那么就不需要hadoop环境。如果你需要执行集群环境,那么你需要搭建一下共享文件系统(NFS文件系统也可以的)。

问题7:学习spark有好资源么?

  可以访问http://www.artima.com/scalazine/articles/steps.html做个入门,同时在apache也有一个 Scala tutorial for Java programmers和 Programming in Scala.如果你有JAVA开发经验和其他脚本开发经验,那么将程序迁移到scala中就很容易了。spark目前提供JAVA、scala和python三种API

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2014-07-16 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
本文介绍了 Apache Spark 的 RDD 程序设计指南,从 RDD 的基本概念、创建与操作、缓存与存储、性能优化等方面进行了详细阐述,并提供了丰富的实例和代码以帮助读者更好地理解和掌握 RDD 的使用方法。
片刻
2018/01/05
1.6K0
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程入门
以下为Mac系统上单机版Spark练习编程环境的配置方法。 注意:仅配置练习环境无需安装Hadoop,无需安装Scala。
double
2019/07/17
1.4K0
Spark 编程入门
原 Spark简介及完全分布式安装
Spark简介及完全分布式安装 一、Spark介绍     官方介绍:      Apache Spark™ is a fast and general engine for large-scale data processing. Spark Introduce     Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.     Apache Spark has an advanced
云飞扬
2018/05/17
6990
Spark RDD编程指南
在高层次上,每个 Spark 应用程序都包含一个驱动程序,该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD),它是跨集群节点分区的元素集合,可以并行操作。 RDD 是通过从 Hadoop 文件系统(或任何其他 Hadoop 支持的文件系统)中的文件或驱动程序中现有的 Scala 集合开始并对其进行转换来创建的。 用户还可以要求 Spark 将 RDD 持久化到内存中,以便在并行操作中有效地重用它。 最后,RDD 会自动从节点故障中恢复。
从大数据到人工智能
2022/04/17
1.5K0
Spark RDD编程指南
Spark为什么比Hadoop快那么多?
在2014年11月5日举行的Daytona Gray Sort 100TB Benchmark竞赛中,Databricks 用构建于206个运算节点之上的spark运算框架在23分钟内完成100TB数据的排序,一举击败了该赛事2013年的冠军—Yahoo团队建立在2100个运算节点之上的Hadoop MapReduce集群,该集群耗时72分钟排序了102.5TB的数据。换句话说,Spark用了十分之一的资源在三分之一的时间里完成了Hadoop做的事情。 HadoopSpark被排序数据大小102.5 TB
叶锦鲤
2018/03/15
2.3K0
Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN
本文介绍了Apache Spark的概述、技术原理、特性、使用场景以及和传统大数据处理框架的对比。Spark支持多种编程语言,具有高性能、易用性强、生态系统丰富等特点。作者还介绍了如何在集群环境中部署Spark,以及与其他大数据处理框架的对比。
片刻
2018/01/05
2.1K0
【大数据】Spark的硬件配置
从MapReduce的兴起,就带来一种思路,就是希望通过大量廉价的机器来处理以前需要耗费昂贵资源的海量数据。这种方式事实上是一种架构的水平伸缩模式——真正的以量取胜。毕竟,以现在的硬件发展来看,CPU的核数、内存的容量以及海量存储硬盘,都慢慢变得低廉而高效。然而,对于商业应用的海量数据挖掘或分析来看,硬件成本依旧是开发商非常关注的。当然最好的结果是:既要马儿跑得快,还要马儿少吃草。 Spark相对于Hadoop的MapReduce而言,确乎要跑得迅捷许多。然而,Spark这种In-Memory的计算模式,是
张逸
2018/03/07
2.4K0
【大数据】Spark的硬件配置
Docker 搭建 Spark
使用 Dockerfile、Docker Compose 构建 Spark集群环境,方便以后的部署,日常开发。
yiyun
2022/04/01
3.4K1
Docker 搭建 Spark
自学Apache Spark博客(节选)
作者:Kumar Chinnakali 译者:java达人 来源:http://dataottam.com/2016/01/10/self-learn-yourself-apache-spark-in-21-blogs-3/(点击文末阅读原文前往) 一、 Spark项目最初由加州大学伯克利分校AMP实验室的Matei在2009年发起,并在2010年根据BSD协议开源。2013年,该项目捐献给Apache软件基金会,转为Apache2.0 协议。2014年二月,Spark成为Apache重点项目。201
java达人
2018/01/31
1.2K0
自学Apache Spark博客(节选)
从零爬着学spark
本文主要介绍了如何从零开始学习Spark,包括安装、部署、数据操作、函数编程、机器学习等方面的内容。作者以实际例子为引子,采用通俗易懂的语言,详细介绍了Spark的基本概念、操作、优化和调试方法,为初学者提供了一套系统的学习方案。
用户1148523
2018/01/09
1.1K0
从零爬着学spark
Spark开发指南
总的来说,每一个Spark的应用,都是由一个驱动程序(driver program)构成,它运行用户的main函数,在一个集群上执行各种各样的并行操作。Spark提出的最主要抽象概念是弹性分布式数据集 (resilient distributed dataset,RDD),它是元素的集合,划分到集群的各个节点上,可以被并行操作。RDDs的创建可以从HDFS(或者任意其他支持Hadoop文件系统) 上的一个文件开始,或者通过转换驱动程序(driver program)中已存在的Scala集合而来。用户也可以让Spark保留一个RDD在内存中,使其能在并行操作中被有效的重复使用。最后,RDD能自动从节点故障中恢复。
幽鸿
2020/04/02
2K0
Spark基础
1.Spark 使用DAG 调度器、查询优化器和物理执行引擎,能够在批处理和流数据获得很高的性能。2.spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘;3.Spark计算框架对内存的利用和运行的并行度比mapreduce高,Spark运行容器为executor,内部ThreadPool中线程运行一个Task,mapreduce在线程内部运行container,container容器分类为MapTask和ReduceTask。Spark程序运行并行度高;
857技术社区
2022/05/17
4290
Spark基础
Spark重要知识汇总
RDD(Resilient Distributed Dataset)弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
Lansonli
2024/08/02
3220
Spark重要知识汇总
Spark设计理念和基本架构
Spark是一个通用的并行计算框架,由加州伯克利大学(UC Berkeley) 的AMP实验室开发于2009年,并于2010年开源,2013年成长为Apache旗下在大数据领域最活跃的开源项目之一。 虽然Spark是一个通用的并行计算框架,但是Spark本质上也是一个基于map-reduce算法模型实现的分布式计算框架,Spark不仅拥有了Hadoop MapReduce的能力和优点,还解决了Hadoop MapReduce中的诸多性能缺陷。 HadoopMapReduce的问题与演进 早期的Hadoop
Spark学习技巧
2018/06/22
1.1K3
【Spark】Spark基础教程
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。
全栈程序员站长
2022/08/19
6510
Spark Core入门1【Spark集群安装、高可用、任务执行流程、使用Scala/Java/Lambda编写Spark WordCount】
Spark是一种快速、通用、可扩展的大数据分析引擎,包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目。
Java架构师必看
2021/05/14
1.5K0
Spark Core入门1【Spark集群安装、高可用、任务执行流程、使用Scala/Java/Lambda编写Spark WordCount】
进击大数据系列(八)Hadoop 通用计算引擎 Spark
Spark 是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么呢?可能很多人还不是太理解,通俗讲就是可以分布式处理大量集数据的,将大量集数据先拆分,分别进行计算,然后再将计算后的结果进行合并。
民工哥
2023/08/22
4500
进击大数据系列(八)Hadoop 通用计算引擎 Spark
初识 Spark - 7000字+15张图解,学习 Spark 入门基础知识
Spark 是 UC Berkeley AMP Lab 开源的通用分布式并行计算框架,目前已成为 Apache 软件基金会的顶级开源项目。
数人之道
2022/02/14
3.6K0
初识 Spark - 7000字+15张图解,学习 Spark 入门基础知识
PySpark|从Spark到PySpark
简单的说Apache Spark是一个开源的、强大的分布式查询和处理引擎,它提供MapReduce的灵活性和可扩展性,但速度明显要快上很多;拿数据存储在内存中的时候来说,它比Apache Hadoop 快100倍,访问磁盘时也要快上10倍。
数据山谷
2020/11/06
3.4K1
Spark入门系列(二)| 1小时学会RDD编程
https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2,下载spark并解压
AI科技大本营
2019/07/19
8520
Spark入门系列(二)| 1小时学会RDD编程
相关推荐
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文