首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Albert陈凯

    Spark ReadmeApache Spark

    Apache Spark Spark is a fast and general cluster computing system for Big Data. //spark.apache.org/ Online Documentation You can find the latest Spark documentation, including a programming Building Spark Spark is built using Apache Maven. For instance: MASTER=spark://host:7077 . Running Tests Testing first requires building Spark. Once Spark is built, tests can be run using: .

    96960发布于 2018-04-04
  • 来自专栏LhWorld哥陪你聊算法

    Spark篇】---Spark初始

    但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法 二、具体细节 1、Spark Spark处理数据的能力一般是MR的十倍以上,Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序。 Standalone Standalone是Spark自带的一个资源调度框架,它支持完全分布式。 Yarn Hadoop生态圈里面的一个资源调度框架,Spark也是可以基于Yarn来计算的。 5、Spark代码流程 1、创建SparkConf对象 <! 5、关闭Spark上下文对象SparkContext。

    1.3K41发布于 2018-09-13
  • 来自专栏小鹏的专栏

    spark杂记:Spark Basics

    Spark 学习笔记可以follow这里:https://github.com/MachineLP/Spark- 下面来看几个问题,下面将关注几个问题进行阐述: Mac下安装pyspark spark 安装目录和Java安装目录 os.environ['SPARK_HOME'] = "/Users/liupeng/spark/spark-2.4.0-bin-hadoop2.7/" sys.path.append ("/Users/liupeng/spark/spark-2.4.0-bin-hadoop2.7/bin") sys.path.append("/Users/liupeng/spark/spark-2.4.0 /liupeng/spark/spark-2.4.0-bin-hadoop2.7/python/lib/pyspark.zip") sys.path.append("/Users/liupeng/spark 相关基础知识 相关spark基础知识如下: Spark Context: We start by creating a SparkContext object named sc.

    1.1K20发布于 2019-05-26
  • 来自专栏章鱼carl的专栏

    SparkSpark之how

    函数(function) Java中,函数需要作为实现了Spark的org.apache.spark.api.java.function包中的任一函数接口的对象来传递。 Spark开发者们已经在Spark 中加入了一个日志设置文件的模版,叫作log4j.properties.template。 ,默认在conf/spark-defaults.conf文件中,也可以通过spark-submit的- -properties自定义该文件的路径 (4) 最后是系统默认 其中,spark-submit的一般格式 当Spark调度并运行任务时,Spark会为每个分区中的数据创建出一个任务。该任务在默认情况下会需要集群中的一个计算核心来执行。 Spark也会使用第三方序列化库:Kryo。需要设置spark.serializer为org.apache.spark.serializer.KryoSerializer。

    1.4K20编辑于 2022-03-31
  • 来自专栏章鱼carl的专栏

    SparkSpark之what

    Spark按照功能侧重点划分为几个模块:Spark Core、Spark SQL、Spark Streaming、Spark MLlib、GraphX。 Spark Core:Spark的核心模块,主要就是对计算引擎本身的抽象和实现 2. Spark Streaming:以流就是无限个小批次,实现这样来定义的流式计算。 Spark MLlib:利用Spark自身作为计算引擎,提供的机器学习库 4. 这种内部优化是基于Spark数据混洗操作的输出均被写入磁盘的特性。 架构 Spark三种提交模式: (1) Spark Core架构其实就是standalone模式。 Spark Cluster Spark on Yarn Spark on Yarn-Client mode Spark on Yarn-Cluster mode 流程 基本流程 Spark一般流程

    1.3K20编辑于 2022-03-31
  • 来自专栏全栈程序员必看

    SparkSpark基础教程

    Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点 Spark具有如下几个主要特点: 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比 Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍; 容易使用:Spark支持使用Scala、Java、Python和R语言进行编程,简洁的API设计有助于用户轻松构建并行程序,并且可以通过 Spark Shell进行交互式编程; 通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件,这些组件可以无缝整合在同一个应用中,足以应对复杂的计算; 运行模式多样 :Spark可运行于独立的集群模式中,或者运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。

    84910编辑于 2022-08-19
  • 来自专栏SmartSi

    Spark2.3.0 引入Spark

    请注意,在 Spark 2.2.0 中删除了对 Java 7 的支持。 要在 Java 中编写 Spark 应用程序,需要在 Spark 上添加依赖项。 Spark可通过 Maven 仓库获得: groupId = org.apache.spark artifactId = spark-core_2.11 version = 2.3.0 另外,如果希望访问 要编写 Spark 应用程序,需要在 Spark 上添加依赖项。 Spark 可通过 Maven 仓库获得: groupId = org.apache.spark artifactId = spark-core_2.11 version = 2.3.0 另外,如果希望访问 添加以下行: import org.apache.spark.SparkContext import org.apache.spark.SparkConf 备注 在 Spark 1.3.0 之前,

    1.1K40发布于 2019-08-07
  • 来自专栏后端精进之路

    Spark系列 - (5) Spark Shuffle

    参与决定分区数的参数defaultMinPartitions也是由该参数确定的, defaultMinPartitions=min(spark.default.parallelism, 2) 由于spark 扩展:Tungsten-Sort Based Shuffle / Unsafe Shuffle 从 Spark 1.5.0 开始,Spark 开始了钨丝计划(Tungsten),目的是优化内存和CPU的使用 ,进一步提升spark的性能。 从Spark-2.0.0开始,Spark 把 Hash Shuffle 移除,可以说目前 Spark-2.0 中只有一种 Shuffle,即为 Sort Shuffle。 如果spark.shuffle.spill = false就只用内存。

    80511编辑于 2023-10-19
  • 来自专栏全栈程序员必看

    Spark pool_spark docker

    org.apache.spark.scheduler.SchedulingAlgorithm。 调度池则用于调度每个sparkContext运行时并存的多个互相独立无依赖关系的任务集。

    63420编辑于 2022-09-20
  • 来自专栏小鹏的专栏

    spark学习笔记:spark sql

    本文链接:https://blog.csdn.net/u014365862/article/details/100982613 spark-env.sh环境配置:(添加hive支持) export JAVA_HOME =$SPARK_CLASSPATH:/***/emr-apache-hive-2.3.2-bin/lib/mysql-connector-java-5.1.38.jar scala代码: import org.apache.spark.sql.SQLContext import org.apache.spark. {SparkConf, SparkContext} import org.apache.spark.sql.SparkSession import org.apache.spark.sql.hive.HiveContext hiveContext = new HiveContext(sparkContext) val sqlContext = new SQLContext(sparkContext) val spark

    98610发布于 2019-09-19
  • 来自专栏后端精进之路

    Spark系列 - (3) Spark SQL

    Shark:2011年Shark诞生,即Hive on Spark。 2014年7月,spark团队将Shark转给Hive进行管理,Hive on Spark是一个Hive的也就是说,Hive将不再受限于一个引擎,可以采用Map-Reduce、Tez、Spark等引擎; Spark SQL作为Spark生态的一员诞生,不再受限于Hive,只是兼容Hive。 3.3 Spark SQL优化 Catalyst是spark sql的核心,是一套针对spark sql 语句执行过程中的查询优化框架。 因此要理解spark sql的执行流程,理解Catalyst的工作流程是理解spark sql的关键。而说到Catalyst,就必须提到下面这张图了,这张图描述了spark sql执行的全流程。

    2K10编辑于 2023-10-19
  • 来自专栏迁移内容

    Spark初识-什么是Spark

    Spark streaming)、机器学习(MLlib)、SQL分析(Spark SQL)和图计算(GraphX)。 这一站式的计算框架,包含了Spark RDD(这也是Spark Core用于离线批处理)、Spark SQL(交互式查询)、Spark Streaming(实时流计算)、MLlib(机器学习)、GraphX , 2014年2月,Spark 成为 Apache 的顶级项目 2014年11月, Spark的母公司Databricks团队使用Spark刷新数据排序世界记录 Spark 成功构建起了一体化、多元化的大数据处理体系 三、Spark的优点 Spark之所以这么受关注,主要是因为其有与其他大数据平台不同的特点,主要如下。 ),这是个惊人的增长 *、本文参考 Spark官网 深入浅出,一文让你了解什么是Spark Spark入门——什么是Hadoop,为什么是Spark?

    2.6K10编辑于 2022-12-01
  • 来自专栏技术圈

    Spark系列(一) 认识Spark

    怀念看论文的日子~/ 打算写一个Spark系列,主要以Scala代码实现,请赐予我力量吧!!! Spark的特点 运行速度:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。 spark生态圈:即BDAS(伯克利数据分析栈)包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件,这些组件分别处理Spark Core提供内存计算框架 Spark的应用场景 基于Spark自身存在的一些特点和优势,Spark的应用场景如下: Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。 执行器节点 Spark 执行器节点是一种工作进程,负责在 Spark 作业中运行任务,任务间相互独立。 Spark 应用启动时,执行器节点就被同时启动,并且始终伴随着整个 Spark 应用的生命周期而存在。如果有执行器节点发生了异常或崩溃,Spark 应用也可以继续执行。

    1.2K20发布于 2019-08-22
  • 来自专栏最新最全的大数据技术体系

    Spark Streaming】Spark Day10:Spark Streaming 学习笔记

    -Straming 概述之SparkStreaming计算思想 ​ Spark Streaming是Spark生态系统当中一个重要的框架,它建立在Spark Core之上,下图也可以看出Sparking 依据业务需求,调用DStream中转换函数(类似RDD中转换函数) /* spark hive hive spark spark hadoop */ val resultDStream , 1) (spark, 1) -> (spark, [1, 1]) (hive, [1]) -> (spark, 2) (hive, 1) (hive, 1) import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.storage.StorageLevel org.apache.spark spark-sql_${scala.binary.version} ${spark.version

    1.5K20编辑于 2021-12-06
  • 来自专栏最新最全的大数据技术体系

    Spark Streaming】Spark Day11:Spark Streaming 学习笔记

    Spark Day11:Spark Streaming 01-[了解]-昨日课程内容回顾 主要讲解:Spark Streaming 模块快速入门 1、Streaming 流式计算概述 - Streaming {DStream, InputDStream} import org.apache.spark.streaming.kafka010._ import org.apache.spark.streaming org.apache.spark.streaming. org.apache.spark spark-sql_${scala.binary.version} ${spark.version } ${spark.version} org.apache.spark spark-streaming-kafka

    1.4K10编辑于 2021-12-06
  • 来自专栏LeetCode

    Spark

    添加描述 在 Scala 中初始化 Spark ? 添加描述 最后,关闭 Spark 可以调用 SparkContext 的 stop() 方法,或者直接退出应用(比如通过 System.exit(0) 或者 sys.exit())。 ? 添加描述 RDD RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。

    71600发布于 2019-03-09
  • 来自专栏后端技术

    spark

    搭建spark集群 https://www.cnblogs.com/freeweb/p/5773619.html idea 创建maven项目 配置scala环境: https://www.cnblogs.com 9722234.html cannot resolve symbol: https://blog.csdn.net/qq_23876393/article/details/78851061 确认spark 与scala对应版本关系: https://mvnrepository.com/artifact/org.apache.spark/spark-core 此处有2.12和2.11标签,如果是spark2.4 hadoop01会被映射到192.168.xx.xx(本地的私有ip) val textFile=sc.textFile("hdfs://hadoop01:9000/wc/temp") 版本问题 scala与spark 版本要对应,maven导入的sdk也要版本对应 运行方式 在本地测试则master设为本地运行 在集群测试则master设为集群运行 参考资源 《Spark快速大数据分析》 《Spark和核心技术与高级应用

    76930发布于 2019-05-25
  • 来自专栏数据科学与人工智能

    Spark研究】Spark之工作原理

    基本概念 理解Spark的运行模式涉及一系列概念: (1)Cluster Manager:在集群上获取资源的外部服务。目前有三种类型:1. Standalone, Spark原生的资源管理;2. (9)RDD:Spark的基本数据操作抽象,可以通过一系列算子进行操作。RDD是Spark最核心的东西,可以被分区、被序列化、不可变、有容错机制,并且能并行操作的数据集合。 /bin/spark-submit --master local[*] # 以CPU个数个线程本地运行 spark://HOST:PORT Spark独立部署模式,需要部署Spark到相关节点, spark.master --master spark://xx:7077 mesos://HOST:PORT Mesos模式,需要部署Spark和Mesos到相关节点。 工作流程 无论运行在哪种模式下,Spark作业的执行流程都是相似的,主要有如下八步: 客户端启动,提交Spark Application, 一般通过spark-submit来完成。

    1.6K51发布于 2018-02-27
  • 来自专栏最新最全的大数据技术体系

    SparkSpark Core Day04

    org.apache.spark. import org.apache.spark.rdd.RDD import org.apache.spark. import org.apache.spark.rdd.RDD import org.apache.spark. import org.apache.spark.rdd.RDD import org.apache.spark. cn.itcast.spark.ckpt import org.apache.spark.

    60110编辑于 2021-12-07
  • 来自专栏王小雷

    Spark学习之Spark SQL(8)

    Spark学习之Spark SQL(8) 1. Spark用来操作结构化和半结构化数据的接口——Spark SQL、 2. Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据(例如JSON、Hive、Parquet等)中读取数据。 2.2 Spark SQL不仅支持在Spark程序内使用SQL语句进行查询,也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器(JDBC/ODBC)连接Spark SQL进行查询 2.3 当在Spark程序内使用Spark SQL时,Spark SQL支持SQ与常规的Python/Java/Scala代码高度整合,包括连接RDD与SQL表、公开的自定义SQL函数接口等。 3. 连接Spark SQL 带有Hive支持的Spark SQL的Maven索引 groupID =org.apache.spark artifactID = spark-hive_2.10

    1.4K70发布于 2018-01-02
领券