首页
学习
活动
专区
圈层
工具
发布

Spark的那些外部框架

小编说:Spark社区提供了大量的框架和库。其规模及数量都还在不断增加。本文我们将介绍不包含在Spark 核心源代码库的各种外部框架。...你不仅能在Spark集群上使用社区的库,还能到公开发布自己的库。如果要把一个Spark package发布到这个托管服务下,必须遵守下列规则: 源代码必须放在Github上。...spHomePage——用于描述package的Web页面的URL。 上述6项是你在发布package之前需要提供的信息。一定要发布到package的代码库的主分支上。...现在,假设你的job已经通过REST API发送。在spark-jobserver项目目录下有一个著名的单词计数例子。下载这个例子的源码后,用sbt命令编译。...得到的结果也能通过REST API下载。

1.7K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    SparkR:数据科学家的新利器

    作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API(SparkR)。...随后,来自工业界的Alteryx、Databricks、Intel等公司和来自学术界的普渡大学,以及其它开发者积极参与到开发中来,最终在2015年4月成功地合并进Spark代码库的主干分支,并在Spark...基于Spark SQL的外部数据源(external data sources) API访问(装载,保存)广泛的第三方数据源。...格式的文件)创建 从通用的数据源创建 将指定位置的数据源保存为外部SQL表,并返回相应的DataFrame 从Spark SQL表创建 从一个SQL查询的结果创建 支持的主要的DataFrame操作有:...SparkR RDD API的实现相比,SparkR DataFrame API的实现简单很多。

    5.1K20

    Databircks连城:Spark SQL结构化数据分析

    在Spark 1.3.0以Spark SQL原有的SchemaRDD为蓝本,引入了Spark DataFrame API,不仅为Scala、Python、Java三种语言环境提供了形如R和Pandas的...Spark 1.2引入的外部数据源API正是为了解决这一问题而产生的。...自1.2发布以来,社区内涌现出了多种多样的外部数据源。下图是Spark 1.3支持的各种数据源的一个概览(左侧是Spark SQL内置支持的数据源,右侧为社区开发者贡献的数据源)。...Spark 1.3提供了Python、Scala、Java三种语言的DataFrame API binding,供用户按需选用。 ?...上述示例的逻辑极为简单,查询优化器的作用不明显,那么为什么会有加速效果呢?RDD API是函数式的,强调不变性,在大部分场景下倾向于创建新对象而不是修改老对象。

    2.4K101

    【数据科学家】SparkR:数据科学家的新利器

    作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API(SparkR)。...随后,来自工业界的Alteryx、Databricks、Intel等公司和来自学术界的普渡大学,以及其它开发者积极参与到开发中来,最终在2015年4月成功地合并进Spark代码库的主干分支,并在Spark...基于Spark SQL的外部数据源(external data sources) API访问(装载,保存)广泛的第三方数据源。...格式的文件)创建 从通用的数据源创建 将指定位置的数据源保存为外部SQL表,并返回相应的DataFrame 从Spark SQL表创建 从一个SQL查询的结果创建 支持的主要的DataFrame操作有:...SparkR RDD API的实现相比,SparkR DataFrame API的实现简单很多。

    4.3K100

    我们的技术实践

    : 将业务尽量分布到小的trait中,然后通过object来组合 多用函数或偏函数对逻辑进行抽象 用隐式转换体现关注点分离,既保证了职责的单一性,又保证了API的流畅性 用getOrElse来封装需要两个分支的模式匹配...以下是我们的一些总结: 要学会使用Spark Web UI来帮助我们分析运行指标;另外,Spark本身提供了与Monitoring有关的REST接口,可以集成到自己的系统中; 考虑在集群环境下使用Kryo...范式化的state可以更有效地利用Store里存储空间; 如果不能更改后端返回的模型,可以考虑使用normalizr;但在我们的项目中,为了满足这一要求,我们专门修改了后端的API。.../hooks/pre-push chmod +x .git/hooks/pre-push Spray与REST的技术实践 我们的一些总结: 站在资源(名词)的角度去思考REST服务,并遵循REST的规范...; 考虑GET、PUT、POST、DELETE的安全性与幂等性; 必须为REST服务编写API文档,并即使更新; ?

    1.5K50

    我们的产品架构

    因此,我们的产品写了一个简单的语法Parser,用以组装Spark SQL的SQL语句,用以执行分析,最后将DataFrame转换为我们期待的数据结构返回给前端。...但是,这种设计方案其实牵涉到两层解析的性能损耗,一个是我们自己的语法Parser,另一个是Spark SQL提供的Parser(通过它将其解析为DataFrame的API调用)。...我们考虑在将来会调整方案,直接将客户定制的聚合操作解析为对DataFrame的API调用(可能会使用新版本Spark的DataSet)。...REST路由层:将元数据视为资源,响应客户端的HTTP请求,并利用Spray Route将请求路由到对应的动词上。路由层为核心资源提供Router的trait。...在REST路由层,所有的消息皆以Request或Response作为类的后缀名,并被定义为Scala的Case Class。

    1.1K30

    【Spark研究】用Apache Spark进行大数据处理第一部分:入门介绍

    API: 利用API,应用开发者可以用标准的API接口创建基于Spark的应用。Spark提供Scala,Java和Python三种程序设计语言的API。...应用示例 本篇文章中所涉及的示例应用是一个简单的字数统计应用。...本示例中的文本文件和数据集都很小,不过无须修改任何代码,示例中所用到的Spark查询同样可以用到大容量数据集之上。 为了让讨论尽量简单,我们将使用Spark Scala Shell。...这些从文本文件中读取并处理数据的命令都很简单。我们将在这一系列文章的后续文章中向大家介绍更高级的Spark框架使用的用例。 首先让我们用Spark API运行流行的Word Count示例。...核心API的代码示例,请参考网站上的Spark文档。

    2.5K70

    【Spark研究】用Apache Spark进行大数据处理之入门介绍

    API: 利用API,应用开发者可以用标准的API接口创建基于Spark的应用。Spark提供Scala,Java和Python三种程序设计语言的API。...应用示例 本篇文章中所涉及的示例应用是一个简单的字数统计应用。...本示例中的文本文件和数据集都很小,不过无须修改任何代码,示例中所用到的Spark查询同样可以用到大容量数据集之上。 为了让讨论尽量简单,我们将使用Spark Scala Shell。...这些从文本文件中读取并处理数据的命令都很简单。我们将在这一系列文章的后续文章中向大家介绍更高级的Spark框架使用的用例。 首先让我们用Spark API运行流行的Word Count示例。...核心API的代码示例,请参考网站上的Spark文档。

    2.5K90

    0538-5.15.0-Spark2 KuduContext访问Kudu

    使用JDBC的方式,也可以通过Kudu提供的Client API方式,参考Fayson前面的文章《如何使用Java API访问CDH的Kudu》和《如何使用Java代码访问Kerberos...在做Spark开发时也有访问Kudu的需求,Kudu API访问是一种方式,这里Fayson使用KuduContext实现对Kudu的读写操作。...这里在Spark2的环境变量中将kudu-spark2的依赖包,确保Spark2作业能够正常的调用kudu-spark2提供的API。...3 Spark Kudu示例代码 1.在Spark2工程中添加SparkOnHBase的Maven依赖 <!...4 总结 1.访问Kudu可以通过Kudu API接口实现参考Fayson文章开头部分提到的Java示例文章,但在使用Spark访问Kudu时建议使用kudu-spark,使用该方式访问对于安全集群访问不需要考虑

    2K41

    Spark实战系列4:Spark周边项目Livy简介

    孵化中) 2 Livy概述 Livy 是 Apache Spark的 一个REST服务,Livy可以在任意平台上提交Spark作业 Livy可以在WEB/Mobile中提交(不需要Spark客户端)可编程的...、容错的、多租户的Spark作业,因此,多个 用户可以并发的、可靠的与Spark集群进 行交互使 用交互式Python和Scala Livy可以使 用Scala或者Python语 言,因此客户端可以通过远程与...Apache Livy是 一个可以通过REST接 口轻松的与Spark集群进 行交互的服务,它可以很 方便提交Spark作业或者Spark代码 片段,同步或者异步的进 行结果检索以及Spark Context...(YARN / Mesos) 而不是Livy服务器,以实现良好的容错性和并发性 作业可以作为预编译的jar,代码 片段或通过java / scala客户端API提交 通过安全的认证通信确保安全 4...log4j.properties:Livy 日志记录的配置。定义 日志级别以及写 入 日志消息的位置。默认配置模板将打印 日志消息到stderr。

    1.8K10

    大数据入门与实战-Spark上手

    这可以通过减少对磁盘的读/写操作次数来实现。它将中间处理数据存储在存储器中。 支持多种语言 --Spark提供Java,Scala或Python内置API。因此,您可以用不同的语言编写应用程序。...Hadoop Yarn - Hadoop Yarn部署意味着,简单地说,在Yarn上运行spark,无需任何预安装或root访问。它有助于将Spark集成到Hadoop生态系统或Hadoop堆栈中。...4.2 打开Spark Shell 以下命令用于打开Spark shell。 $ spark-shell 4.3 创建简单的RDD 我们可以从文本文件中创建一个简单的RDD。...使用以下命令创建简单的RDD。 scala> val inputfile = sc.textFile(“input.txt”) Spark RDD API 提供了了一些转换和操作来处理RDD。...在开始程序的第一步之前,应该创建SparkContext对象。 ? 5.3 创建一个RDD 首先,我们必须使用Spark-Scala API读取输入文件并创建RDD。 以下命令用于从给定位置读取文件。

    1.4K20

    Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN

    使用 Spark Shell 进行交互式分析 基础 Spark shell 提供了一种来学习该 API 比较简单的方式, 以及一个强大的来分析数据交互的工具。...举一个简单的例子, 让我们标记我们的 linesWithSpark 数据集到缓存中: Scala Python scala> linesWithSpark.cache() res7: linesWithSpark.type...中描述的一样通过连接 bin/spark-shell 到集群中, 使用交互式的方式来做这件事情。 独立的应用 假设我们希望使用 Spark API 来创建一个独立的应用程序。...Scala Java Python 我们将在 Scala 中创建一个非常简单的 Spark 应用程序 - 很简单的, 事实上, 它名为 SimpleApp.scala: /* SimpleApp.scala...最后, 在 Spark 的 examples 目录中包含了一些 (Scala, Java, Python, R) 示例。

    1.7K80
    领券