孵化中) 2 Livy概述 Livy 是 Apache Spark的 一个REST服务,Livy可以在任意平台上提交Spark作业 Livy可以在WEB/Mobile中提交(不需要Spark客户端)可编程的...Spark集群进 行通讯,此外,批处理作业可以在Scala、java、python中完成 不需要修改代码 对现在程序的代码修改不需要修改Livy,只需要在Maven构建Livy,在Spark集群中部署配置就可以...3 Apache Livy是什么?.../bin/livy-server Livy默认情况下使 用SPARK_HOME的配置,建议将Spark以YARN集群模式的 方式提交应 用程序,这样可以确保 用户会话在YARN集群模式中合适的分配资源,...这些选项将被限制为其默认值或Livy使 用的Spark配置中设置的值。 log4j.properties:Livy 日志记录的配置。定义 日志级别以及写 入 日志消息的位置。
Apache Spark提供的两种基于命令行的处理交互方式虽然足够灵活,但在企业应用中面临诸如部署、安全等问题。...为此本文引入Livy这样一个基于Apache Spark的REST服务,它不仅以REST的方式代替了Spark传统的处理交互方式,同时也提供企业应用中不可忽视的多用户,安全,以及容错的支持。...这样的方式会有什么问题吗? 首先将资源的使用和故障发生的可能性集中到了这些Gateway节点。...Spark集群上编译并执行; 批处理会话(batch session),用户可以通过Livy以批处理的方式启动Spark应用,这样的一个方式在Livy中称之为批处理会话,这与Spark中的批处理是相同的...Livy提供了失败恢复的机制,当用户启动会话的同时Livy会在可靠的存储上记录会话相关的元信息,一旦Livy从失败中恢复过来它会试图读取相关的元信息并与Spark集群重新连接。
数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益。 为什么会有数据质量管理呢?...Griffin官网地址:https://griffin.apache.org/ Github地址:https://github.com/apache/griffin 在eBay的数据质量管理实践中,需要花费很长时间去修复数据质量的问题...在官网的定义中,Apache Griffin也早就更新为了批和流(Batch and Streaming)数据质量解决方案。Apache Griffin已经在朝着数据质量的统一管理平台而努力了。...Spark 集群中的数据质量指标。...这里我的测试环境Hadoop和Hive安装在同一台服务器上,因此直接运行脚本。
Cloudera Labs中的项目玩法,你还可以参考Fayson之前翻译的Phoenix文章《Cloudera Labs中的Phoenix》 Livy是基于Apache许可的一个服务,它可以让远程应用通过...2.同时管理多个SparkContexts,让它们在集群中(YARN/Mesos)运行,从而实现很好的容错和并发,而不是在Livy服务上运行。...3.预编译的jars,代码片段或者Java/Scala客户端API都可以用来提交作业。 4.安全认证的通信。 要使用Livy,集群中必须安装Spark 1.4或以上版本,Scala2.10。...强烈建议配置Spark on YARN,以确保用户会话可以连接到YARN集群中,并使用YARN分配的资源,也可以保证当有多个会话连接时,运行Livy服务的节点不会负载太高。.../s/SMfB-3wQBSqK7Nhv2KooWA Fayson在接下来会对Livy的安装使用进行实操,欢迎持续关注: Livy编译,包括与CDH的集成 Livy在非Kerberos的CDH集群下的使用
,基于Apache Spark的开源REST服务,加入Cloudera Labs》和《如何编译Livy并在非Kerberos环境的CDH集群中安装》,Livy提供了两种类型的API(编程API和RESTful...API接口),本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向非Kerberos环境的CDH集群提交Spark作业操作。...内容概述 1.开发环境准备 2.Livy调用示例代码 3.示例代码运行及验证 测试环境 1.CM和CDH版本为5.13.1 2.Livy版本为0.4 前置条件 1.集群未启用Kerberos 2.环境准备及描述...2.使用Maven创建Livy示例工程 [6rpympw3ea.jpeg] 3.在pom文件中添加如下依赖 org.apache.httpcomponents...的RESTful API实现向非Kerberos的CDH集群作业提交 * creat_user: Fayson * email: htechinfo@163.com * creat_date: 2018
,基于Apache Spark的开源REST服务,加入Cloudera Labs》,由于Cloudera暂未将Livy服务打包集成到CDH,所以需要我们自己编译安装,本篇文章主要介绍如何通过Maven编译...Livy并在非Kerberos环境的CDH集群中安装。...-31-30-69.ap-southeast-1.compute.internal Livy编译节点 1.配置Java环境变量,这里我们使用CDH集群自带的JDK 在/etc/profile文件中增加如下配置...,可以参考Fayson前面的文章《如何在Redhat中配置R环境》和《如何在CDH集群安装Anaconda&搭建Python私有源》。...[pa8k4d2qhv.jpeg] 到此为止就完成了Livy源码编译、安装与非Kerberos环境下的CDH集群集成。
集群外的节点向集群提交Spark作业,文章中均采用Spark1来做为示例,本篇文章主要介绍如何是用Oozie API向Kerberos环境的CDH集群提交Spark2作业。...学习本篇知识前必读内容: 《集群安CDH5.12.1装Kudu、Spark2、Kafka》 《如何使用Hue创建Spark1和Spark2的工作流》 内容概述: 环境准备 示例代码编写及测试 总结 测试环境...认证的AuthOozieClient API接口 由于Oozie默认不支持Spark2作业的提交,因此需要先在Oozie的共享库中安装Spark2的支持 在定义Spark2的workflow.xml时,...API接口向非Kerberos环境的CDH集群提交Spark作业》 《如何使用Oozie API接口向Kerberos集群提交Java程序》 Livy相关文章: 《如何编译Livy并在非Kerberos...环境的CDH集群中安装》 《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》 《如何在Kerberos环境的CDH集群部署Livy》 《如何通过Livy的RESTful
1.文档编写目的 ---- Fayson在前面文章《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装...》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》及《如何通过Livy的RESTful API接口向...Kerberos环境的CDH集群提交作业》中对Livy的介绍、安全与非安全集群的部署以及使用。.../livy_zeppelin_cdh_csd_parcels 接下来我们就利用上面的脚本来打包Livy和Zeppelin的Parcel,生成Livy和Zeppelin的Parcel包步骤: 下载Livy...等待命令执行完成,默认使用的livy版本为Apache官网的0.5.0版本。 ? 默认使用的Zeppelin版本为0.8.0 ?
,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos...环境的CDH集群提交作业》和《如何在Kerberos环境的CDH集群部署Livy》。...本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向Kerberos环境的CDH集群提交Spark作业操作。...2.准备访问集群的keytab及集群的krb5.conf文件 krb5.conf配置文件,获取方式:文件在CDH集群中将KDC服务器上的/etc/目录 [vxfb9v4758.jpeg] 在KDC所在服务器执行如下命令生成...配置文件到环境变量中,实现fayosn@FAYSON.COM用户登录 访问Kerberos环境下的RESTfulAPI接口需要使用HttpClient提供的spnego方式访问,这里Fayson使用第三方封装好的
Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- CDH集群中可以使用Hue访问Hive...在前面Fayson也介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy...的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的...CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》,本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成...2.创建Spark Notebook则需要依赖Livy服务,需要在集群中部署Livy服务并在Hue中配置Livy环境。
Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在CDH集群外的节点向集群提交Spark...作业的方式有多种,前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业,本篇文章我们借助于oozie-client的API接口向非...Livy相关文章: 《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境的CDH集群中安装》 《如何通过Livy的RESTful...API接口向非Kerberos环境的CDH集群提交作业》 《如何在Kerberos环境的CDH集群部署Livy》 《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业...参数传递通过在代码里面调用oozieClient.createConfiguration()创建一个Properties对象将K,V值存储并传入oozieClient.run(properties)中。
Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在CDH集群外的节点向集群提交Spark...作业的方式有多种,前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业以及《如何使用Oozie API接口向非Kerberos环境的...CDH集群提交Spark作业》,本篇文章主要介绍使用Oozie的API接口向Kerberos集群提交Spark作业。...Livy相关文章: 《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境的CDH集群中安装》 《如何通过Livy的RESTful...API接口向非Kerberos环境的CDH集群提交作业》 《如何在Kerberos环境的CDH集群部署Livy》 《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业
但很多情况下,针对具体的一条SQL语句,用户很难判断应该用哪个引擎来执行会更为高效,只能不断切换引擎重试,体验较差,使用门槛高。同时SQL执行的效率也较低(如失败、卡住、占用大量资源等)。...没有引入计算提效优化之前,SuperSQL默认的跨源计算引擎是Livy(Spark3),而单源SQL则是TDW Hive(THive)中的Spark 2.x。...2.提效判定:通过对某个SQL对应的最优物理计划树进行一系列的RBO匹配与检测,以及对执行计划树中的Scan或Join节点进行CBO大小估算, 这类SQL会自动回退Livy + Spark3(跨源)或者...04提效效果 目前天穹Presto现网集群日均执行SQL数10W+查询。...联系方式:yikonchen@tencent.com 参考 【1】 Apache Livy https://livy.apache.org/ 【2】 ApacheCalcite https://calcite.apache.org
,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》和《如何通过Livy的RESTful API接口向非Kerberos...环境的CDH集群提交作业》,本篇文章主要介绍如何在Kerberos环境的CDH集群中部署Livy服务。...2.部署Livy ---- 1.将编译好的Livy包上传至CDH集群的节点 [root@ip-172-31-30-69 cloudera]# scp livy.tar.gz ip-172-31-21-...bin/livy-server stop (可左右滑动) [laxhugfbbv.png] 由于集群启用了Kerberos,所以这里需要浏览器访问Kerberos的HTTP做配置,可以参考Fayson前面的文章...6.总结 Livy部署服务器必须安装Kerberos客户端及部署CDH集群GateWay角色及,具体可以参考《如何给Kerberos环境下的CDH集群添加Gateway节点》 Livy服务集成Kerberos
Hadoop集群 二、配置 Kylin集群的配置主要是配置在KYLIN_HOME/conf/kylin.properties文件, 本文所述的配置均是在此配置文件中配置,KYLIN_HOME为Kylin...此配置分为两部分,@为分隔符: (1)、@后的部分表示此Kylin集群使用什么作为存储,可以配置为:hbase、hdfs、ifile、jdbc。...(2)、@前的部分有至少如下几个用途: a、Kylin集群的元数据在hbase中的存储表名以及表对应的namespace,namespace可以不配配置,不配做则为tablename...当需要使用spark livy 构建时,配置kylin 构建jar包在HDFS上的位置。...此处的jar包配置需要每个集群互不影响,配置不同的目录,否则升级会互相影响,不用spark livy构建可以忽略此配置。
本文基于 incubator-livy 0.4.0-incubating 关于Apache Livy(下文简称 livy)是什么以及有什么用,请移步:Livy:基于Apache Spark的REST...的,还是对 batch 或 job 的一个什么样的请求(创建、查状态、拿结果还是停止)进行相应的路由,去调用某个类的某个方法 第三步:livy 是一个有权限控制的系统(当然可以不开启),每个用户的每个请求是否有权限执行...,都需要进行鉴权 第四步:对于用户发送的任务请求,livy 要有能力将其转换为一个 Spark App 并启动起来 第五步:除了要能执行用户指定的任务,运行中的 Spark App 还要提供获取运行状态...重启后需要能够恢复对 sessions、batches 的管理,这就需要有能存取这些状态数据的模块 二、模块概述 从上文的 livy 大致的实现思路中,我们可以依次归纳出以下几个模块(顺序与上文步骤一一对应...在目前的实现中,livy 的权限管理尚不支持插件化且只有 AccessManager 一种实现,若要定义自己的权限管理,需要直接修改源码 2.4、生成 Spark App 对于 session 和 batch
CDP集群运行正常 集群未启用Kerberos MySQL 5.1.73 测试环境 以下是本次测试环境,但不是本操作手册的必需环境: 操作系统:CentOS7.9 CDP版本为7.1.7.0 CM版本为...KDC服务安装及配置 本文档中将KDC服务安装在Cloudera Manager Server所在服务器上(KDC服务可根据自己需要安装在其他服务器) 在Cloudera Manager服务器上安装KDC...c-bd97232d18624d20 = ALIBABA.COM cdp-utility-1.c-bd97232d18624d20 = ALIBABA.COM 说明: [logging]:表示server端的日志的打印位置...kdc:代表要kdc的位置。格式是 机器:端口 admin_server:代表admin的位置。...# 保存路径为/var/kerberos/krb5kdc 如果需要重建数据库,将该目录下的principal相关的文件删除即可 在此过程中,我们会输入database的管理密码。
使用 SDX 的细粒度安全性、企业元数据和可扩展的数据血缘,支持 Atlas 和 Ranger 支持对象存储 Ozone 单一管理平台 - 使用 Cloudera Manager 支持多集群 什么是CDP...他们应该审查他们所使用的当前版本。...推荐的路径是使用 Apache Nifi,但是,如果仍然需要 Flume 并得到客户的坚持,它可以在没有支持的情况下运行,或者请 Cloudera PS 寻求帮助。 Pig的支持是什么?...CDP 中不存在 Apache Pig。 Apache Pig 旨在简化编写 MR 作业的过程。...Apache Spark 和 Apache Hive 已经取代了对 Pig 的需求,因此建议客户迁移到 Apache Spark。
在一个 Hadoop 集群中,一个节点既是存储节点(datanode),也是计算节点。...为了简化 Spark 程序在 K8s 上运行的复杂配置流程,我们模仿 Apache Livy 的 API 开发了一个 Spark Job Manager Server。...目前,JupyterLab 是利用开源项目 SparkMagic Kernel 通过 Apache Livy 服务来和 Spark 集群进行通讯,实现 Spark 程序的交互式运行。...但是,Apache Livy 目前的版本并不支持 K8s。...针对这个问题,我们采用了 Hive 模式类似的方式,对 Apache Livy 代码进行了扩展,在 Livy 服务端创建了一个 RPC Server,然后通过 SparkSubmit 提交 Spark
端(livy server 端)是如何启动 driver 以及建立连接的。...注:如果对 livy 的整体架构以及 session client 端不了解,请先阅读以下两篇相关文章: Apache Livy 实现思路及模块概述 - 简书 Livy Session 详解(上) -...job (GitHub - cloudera/livy: Livy is an open source REST interface for interacting with Apache Spark...这种串行的方式有明显的弊端,即当 Session 的资源足以执行多个 statement 时,也只能一个接着一个执行,这既浪费了资源,有延长了任务运行的整体时间。那为什么还要这么做呢?...主要是因为目前 livy 中的一个 Session 仅包含一个 interpreter,如果一个 interpreter 同时执行多段代码片段,很容易会出现穿插执行的错误。
领取专属 10元无门槛券
手把手带您无忧上云