首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Spark实战系列4:Spark周边项目Livy简介

孵化中) 2 Livy概述 Livy 是 Apache Spark的 一个REST服务,Livy可以在任意平台上提交Spark作业 Livy可以在WEB/Mobile中提交(不需要Spark客户端)可编程的...Spark集群进 行通讯,此外,批处理作业可以在Scala、java、python中完成 不需要修改代码 对现在程序的代码修改不需要修改Livy,只需要在Maven构建Livy,在Spark集群中部署配置就可以...3 Apache Livy是什么?.../bin/livy-server Livy默认情况下使 用SPARK_HOME的配置,建议将Spark以YARN集群模式的 方式提交应 用程序,这样可以确保 用户会话在YARN集群模式中合适的分配资源,...这些选项将被限制为其默认值或Livy使 用的Spark配置中设置的值。 log4j.properties:Livy 日志记录的配置。定义 日志级别以及写 入 日志消息的位置。

1.5K10

Livy:基于Apache Spark的REST服务

Apache Spark提供的两种基于命令行的处理交互方式虽然足够灵活,但在企业应用中面临诸如部署、安全等问题。...为此本文引入Livy这样一个基于Apache Spark的REST服务,它不仅以REST的方式代替了Spark传统的处理交互方式,同时也提供企业应用中不可忽视的多用户,安全,以及容错的支持。...这样的方式会有什么问题吗? 首先将资源的使用和故障发生的可能性集中到了这些Gateway节点。...Spark集群上编译并执行; 批处理会话(batch session),用户可以通过Livy以批处理的方式启动Spark应用,这样的一个方式在Livy中称之为批处理会话,这与Spark中的批处理是相同的...Livy提供了失败恢复的机制,当用户启动会话的同时Livy会在可靠的存储上记录会话相关的元信息,一旦Livy从失败中恢复过来它会试图读取相关的元信息并与Spark集群重新连接。

3.9K80
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    开源数据质量解决方案——Apache Griffin入门宝典

    数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益。 为什么会有数据质量管理呢?...Griffin官网地址:https://griffin.apache.org/ Github地址:https://github.com/apache/griffin 在eBay的数据质量管理实践中,需要花费很长时间去修复数据质量的问题...在官网的定义中,Apache Griffin也早就更新为了批和流(Batch and Streaming)数据质量解决方案。Apache Griffin已经在朝着数据质量的统一管理平台而努力了。...Spark 集群中的数据质量指标。...这里我的测试环境Hadoop和Hive安装在同一台服务器上,因此直接运行脚本。

    3K40

    Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs

    Cloudera Labs中的项目玩法,你还可以参考Fayson之前翻译的Phoenix文章《Cloudera Labs中的Phoenix》 Livy是基于Apache许可的一个服务,它可以让远程应用通过...2.同时管理多个SparkContexts,让它们在集群中(YARN/Mesos)运行,从而实现很好的容错和并发,而不是在Livy服务上运行。...3.预编译的jars,代码片段或者Java/Scala客户端API都可以用来提交作业。 4.安全认证的通信。 要使用Livy,集群中必须安装Spark 1.4或以上版本,Scala2.10。...强烈建议配置Spark on YARN,以确保用户会话可以连接到YARN集群中,并使用YARN分配的资源,也可以保证当有多个会话连接时,运行Livy服务的节点不会负载太高。.../s/SMfB-3wQBSqK7Nhv2KooWA Fayson在接下来会对Livy的安装使用进行实操,欢迎持续关注: Livy编译,包括与CDH的集成 Livy在非Kerberos的CDH集群下的使用

    2.4K80

    如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业

    ,基于Apache Spark的开源REST服务,加入Cloudera Labs》和《如何编译Livy并在非Kerberos环境的CDH集群中安装》,Livy提供了两种类型的API(编程API和RESTful...API接口),本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向非Kerberos环境的CDH集群提交Spark作业操作。...内容概述 1.开发环境准备 2.Livy调用示例代码 3.示例代码运行及验证 测试环境 1.CM和CDH版本为5.13.1 2.Livy版本为0.4 前置条件 1.集群未启用Kerberos 2.环境准备及描述...2.使用Maven创建Livy示例工程 [6rpympw3ea.jpeg] 3.在pom文件中添加如下依赖 org.apache.httpcomponents...的RESTful API实现向非Kerberos的CDH集群作业提交 * creat_user: Fayson * email: htechinfo@163.com * creat_date: 2018

    2.5K70

    如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark2作业

    集群外的节点向集群提交Spark作业,文章中均采用Spark1来做为示例,本篇文章主要介绍如何是用Oozie API向Kerberos环境的CDH集群提交Spark2作业。...学习本篇知识前必读内容: 《集群安CDH5.12.1装Kudu、Spark2、Kafka》 《如何使用Hue创建Spark1和Spark2的工作流》 内容概述: 环境准备 示例代码编写及测试 总结 测试环境...认证的AuthOozieClient API接口 由于Oozie默认不支持Spark2作业的提交,因此需要先在Oozie的共享库中安装Spark2的支持 在定义Spark2的workflow.xml时,...API接口向非Kerberos环境的CDH集群提交Spark作业》 《如何使用Oozie API接口向Kerberos集群提交Java程序》 Livy相关文章: 《如何编译Livy并在非Kerberos...环境的CDH集群中安装》 《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》 《如何在Kerberos环境的CDH集群部署Livy》 《如何通过Livy的RESTful

    3.3K40

    如何打包Livy和Zeppelin的Parcel包

    1.文档编写目的 ---- Fayson在前面文章《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装...》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》及《如何通过Livy的RESTful API接口向...Kerberos环境的CDH集群提交作业》中对Livy的介绍、安全与非安全集群的部署以及使用。.../livy_zeppelin_cdh_csd_parcels 接下来我们就利用上面的脚本来打包Livy和Zeppelin的Parcel,生成Livy和Zeppelin的Parcel包步骤: 下载Livy...等待命令执行完成,默认使用的livy版本为Apache官网的0.5.0版本。 ? 默认使用的Zeppelin版本为0.8.0 ?

    2.6K30

    如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业

    ,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos...环境的CDH集群提交作业》和《如何在Kerberos环境的CDH集群部署Livy》。...本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向Kerberos环境的CDH集群提交Spark作业操作。...2.准备访问集群的keytab及集群的krb5.conf文件 krb5.conf配置文件,获取方式:文件在CDH集群中将KDC服务器上的/etc/目录 [vxfb9v4758.jpeg] 在KDC所在服务器执行如下命令生成...配置文件到环境变量中,实现fayosn@FAYSON.COM用户登录 访问Kerberos环境下的RESTfulAPI接口需要使用HttpClient提供的spnego方式访问,这里Fayson使用第三方封装好的

    4K120

    如何在Hue中添加Spark Notebook

    Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- CDH集群中可以使用Hue访问Hive...在前面Fayson也介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy...的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的...CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》,本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成...2.创建Spark Notebook则需要依赖Livy服务,需要在集群中部署Livy服务并在Hue中配置Livy环境。

    6.8K30

    如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业

    Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在CDH集群外的节点向集群提交Spark...作业的方式有多种,前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业,本篇文章我们借助于oozie-client的API接口向非...Livy相关文章: 《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境的CDH集群中安装》 《如何通过Livy的RESTful...API接口向非Kerberos环境的CDH集群提交作业》 《如何在Kerberos环境的CDH集群部署Livy》 《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业...参数传递通过在代码里面调用oozieClient.createConfiguration()创建一个Properties对象将K,V值存储并传入oozieClient.run(properties)中。

    1.5K70

    如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark作业

    Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在CDH集群外的节点向集群提交Spark...作业的方式有多种,前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业以及《如何使用Oozie API接口向非Kerberos环境的...CDH集群提交Spark作业》,本篇文章主要介绍使用Oozie的API接口向Kerberos集群提交Spark作业。...Livy相关文章: 《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境的CDH集群中安装》 《如何通过Livy的RESTful...API接口向非Kerberos环境的CDH集群提交作业》 《如何在Kerberos环境的CDH集群部署Livy》 《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业

    2K70

    智能计算时代 | SuperSQL基于监督学习模型的自适应计算提效能力

    但很多情况下,针对具体的一条SQL语句,用户很难判断应该用哪个引擎来执行会更为高效,只能不断切换引擎重试,体验较差,使用门槛高。同时SQL执行的效率也较低(如失败、卡住、占用大量资源等)。...没有引入计算提效优化之前,SuperSQL默认的跨源计算引擎是Livy(Spark3),而单源SQL则是TDW Hive(THive)中的Spark 2.x。...2.提效判定:通过对某个SQL对应的最优物理计划树进行一系列的RBO匹配与检测,以及对执行计划树中的Scan或Join节点进行CBO大小估算, 这类SQL会自动回退Livy + Spark3(跨源)或者...04提效效果 目前天穹Presto现网集群日均执行SQL数10W+查询。...联系方式:yikonchen@tencent.com 参考 【1】 Apache Livy https://livy.apache.org/ 【2】  ApacheCalcite https://calcite.apache.org

    1.2K30

    如何在Kerberos环境的CDH集群部署Livy

    ,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》和《如何通过Livy的RESTful API接口向非Kerberos...环境的CDH集群提交作业》,本篇文章主要介绍如何在Kerberos环境的CDH集群中部署Livy服务。...2.部署Livy ---- 1.将编译好的Livy包上传至CDH集群的节点 [root@ip-172-31-30-69 cloudera]# scp livy.tar.gz ip-172-31-21-...bin/livy-server stop (可左右滑动) [laxhugfbbv.png] 由于集群启用了Kerberos,所以这里需要浏览器访问Kerberos的HTTP做配置,可以参考Fayson前面的文章...6.总结 Livy部署服务器必须安装Kerberos客户端及部署CDH集群GateWay角色及,具体可以参考《如何给Kerberos环境下的CDH集群添加Gateway节点》 Livy服务集成Kerberos

    3.7K40

    多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践

    Hadoop集群 二、配置 Kylin集群的配置主要是配置在KYLIN_HOME/conf/kylin.properties文件, 本文所述的配置均是在此配置文件中配置,KYLIN_HOME为Kylin...此配置分为两部分,@为分隔符: (1)、@后的部分表示此Kylin集群使用什么作为存储,可以配置为:hbase、hdfs、ifile、jdbc。...(2)、@前的部分有至少如下几个用途: a、Kylin集群的元数据在hbase中的存储表名以及表对应的namespace,namespace可以不配配置,不配做则为tablename...当需要使用spark livy 构建时,配置kylin 构建jar包在HDFS上的位置。...此处的jar包配置需要每个集群互不影响,配置不同的目录,否则升级会互相影响,不用spark livy构建可以忽略此配置。

    97640

    Apache Livy 实现思路及模块概述

    本文基于 incubator-livy 0.4.0-incubating 关于Apache Livy(下文简称 livy)是什么以及有什么用,请移步:Livy:基于Apache Spark的REST...的,还是对 batch 或 job 的一个什么样的请求(创建、查状态、拿结果还是停止)进行相应的路由,去调用某个类的某个方法 第三步:livy 是一个有权限控制的系统(当然可以不开启),每个用户的每个请求是否有权限执行...,都需要进行鉴权 第四步:对于用户发送的任务请求,livy 要有能力将其转换为一个 Spark App 并启动起来 第五步:除了要能执行用户指定的任务,运行中的 Spark App 还要提供获取运行状态...重启后需要能够恢复对 sessions、batches 的管理,这就需要有能存取这些状态数据的模块 二、模块概述 从上文的 livy 大致的实现思路中,我们可以依次归纳出以下几个模块(顺序与上文步骤一一对应...在目前的实现中,livy 的权限管理尚不支持插件化且只有 AccessManager 一种实现,若要定义自己的权限管理,需要直接修改源码 2.4、生成 Spark App 对于 session 和 batch

    1.8K50

    在CDP集群启用Kerberos手册

    CDP集群运行正常 集群未启用Kerberos MySQL 5.1.73 测试环境 以下是本次测试环境,但不是本操作手册的必需环境: 操作系统:CentOS7.9 CDP版本为7.1.7.0 CM版本为...KDC服务安装及配置 本文档中将KDC服务安装在Cloudera Manager Server所在服务器上(KDC服务可根据自己需要安装在其他服务器) 在Cloudera Manager服务器上安装KDC...c-bd97232d18624d20 = ALIBABA.COM cdp-utility-1.c-bd97232d18624d20 = ALIBABA.COM 说明: [logging]:表示server端的日志的打印位置...kdc:代表要kdc的位置。格式是 机器:端口 admin_server:代表admin的位置。...# 保存路径为/var/kerberos/krb5kdc 如果需要重建数据库,将该目录下的principal相关的文件删除即可 在此过程中,我们会输入database的管理密码。

    1.7K10

    Livy Session 详解(中)

    端(livy server 端)是如何启动 driver 以及建立连接的。...注:如果对 livy 的整体架构以及 session client 端不了解,请先阅读以下两篇相关文章: Apache Livy 实现思路及模块概述 - 简书 Livy Session 详解(上) -...job (GitHub - cloudera/livy: Livy is an open source REST interface for interacting with Apache Spark...这种串行的方式有明显的弊端,即当 Session 的资源足以执行多个 statement 时,也只能一个接着一个执行,这既浪费了资源,有延长了任务运行的整体时间。那为什么还要这么做呢?...主要是因为目前 livy 中的一个 Session 仅包含一个 interpreter,如果一个 interpreter 同时执行多段代码片段,很容易会出现穿插执行的错误。

    1.6K40
    领券