首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >EMR上Zeppelin入门

EMR上Zeppelin入门

原创
作者头像
程序猿
发布于 2018-08-12 14:02:47
发布于 2018-08-12 14:02:47
1.6K0
举报

什么是Zeppelin?

简而言之,就是一个大数据分析平台。用户可以利用提供好的WEB UI,在线编写分析逻辑代码,输出结果,并且能够利用可视化工具,形象生动的在线展示结果。

基础知识

notebook:是一个自己的工作环境,可以在notebook中执行大数据分析的逻辑,可以配置interpreter,可以设置权限等。基本上所有web上的操作都会在一个notebook中进行

interpreter:是zeppelin的核心概念-解析器,zeppelin通过解析器(interpreter)将用户输入转换为后台服务命令。具体原理请自行查阅资料。

Zeppelin安装

直接通过zeppelin官网。我下载的是包括了所有interpreter的压缩包

下载完成之后,解压然后运行(unix platform):bin/zeppelin-daemon.sh start

这个时候你就能访问8080端口来访问zeppelin服务了

接入spark on yarn集群

接入spark on yarn非常简单,只用在conf/zeppelin-env.sh中加入两个配置即可

  • export MASTER=yarn-client
  • export SPARK_HOME=/usr/local/service/spark

master是zeppelin底层调用spark的参数,熟悉利用命令行通过spark提交任务的朋友应该比较熟悉:$SPARK_HOME/bin/spark-submit --class package.SparkStudy --master yarn-cluster ./wordcount.jar some_params

上面这个命令是shell下利用spark提交任务到yarn上的最简单的方式(只指出了运行模式,jar包以及运行的class,其他参数全部默认,也不包含输入输出),其中master就是我们在zeppelin中设置的master,zeppelin并不支持yarn-cluster,所以我们选择yarn-lient。SPARK_HOME就是本地的SPARK根目录。设置好之后,就可以重启zeppelin了。

下面就可以利用zeppelin在线调用我的spark on yarn集群了

下面利用python脚本生成需要处理的数据:

该脚本随机生成了10亿个0~99的随机数,下面将利用zeppelin分析该数据,完成一个统计工作,看看python随机数是否均衡。数据生成完之后,利用命令将数据保存在hdfs当中(hdfs dfs -put local-data dfs-dir)。

此时我们已经拥有了数据,下面就开始直接在zeppelin上进行分析吧

使用zeppelin:

首先访问8080端口,然后新建一个note

点击创建Note进入到一下页面

下面就可以在输入框中编写逻辑代码了,默认使用spark(创建note的时候有配置过)

下面我直接给出结果的截图:

我总共提交了三块代码,分别是spark和2个sparkSQL的代码

最终第三块的sparkSQL是对这10亿数字分配在0~99里的总误差,可以发现总误差非常非常小,说明python的random.randint还是非常均匀的。

注意:

1. zeppelin架在spark on yarn上,用的是yarn-client模式,所以AM会在本机启动

2. 请确保自己的spark on yarn没有有问题

3. 在生成10亿数据时,应该采用xrange(10亿),而不是range(10亿),一个小细节,懂python的应该知道。

4. zeppelin还支持很多的interpreter,以上流程只介绍了spark和sparksql,大家可以自己研究一下,使用各种解析器完成分析工作。

PS:如果文中有错误的地方,请各位大神指点一下,本人菜鸟很多东西不甚了解,谢谢

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【数据科学】数据科学中的 Spark 入门
本文由 伯乐在线 - zhique 翻译,xxmen 校稿。未经许可,禁止转载! 英文出处:Ram Sriharsha。欢迎加入翻译组。 Apache Spark 为数据科学提供了许多有价值的工具。随着 Apache Spark 1.3.1 技术预览版的发布,强大的 Data Frame API 也可以在 HDP 上使用数据科学家使用数据挖掘和可视化来帮助构造问题架构并对学习进行微调。Apache Zeppelin 正好能够帮他们做到这些。 Zeppelin 是一个基于 Web 的 notebook 服务器
陆勤_数据人网
2018/02/26
1.6K0
【数据科学】数据科学中的 Spark 入门
Zeppelin 安装部署实验
一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境: 12个节点的Spark集群,以standalone方式部署,各个节点运行的进程如表1所示。
用户1148526
2022/05/07
4760
Zeppelin 安装部署实验
NoteBook学习(二)-------- Zeppelin简介与安装
  多用途的笔记本。数据的采集 发现 分析 可视化 协作。。 支持20+种后端语言,支持多种解释器 内置集成Spark
大数据流动
2019/08/08
1.8K0
Zeppelin原理简介
Zeppelin是一个基于Web的notebook,提供交互数据分析和可视化。后台支持接入多种数据处理引擎,如spark,hive等。支持多种语言: Scala(Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。本文主要介绍Zeppelin中Interpreter和SparkInterpreter的实现原理。
全栈程序员站长
2022/09/20
6030
基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(五)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52370045
用户1148526
2019/05/25
1.2K0
CDH 6.3.1整合Zeppelin 0.8.2
Zeppelin是一个基于Web的笔记本,可以直接在浏览器中编写代码,对数据进行查询分析并生成报表或图表,做出数据驱动的、交互、协作的文档,并且可以共享笔记。Zeppelin提供了内置的Apache Spark集成,提供的功能有:
用户1148526
2020/03/18
2.4K0
CDH 6.3.1整合Zeppelin 0.8.2
推荐一款可视化+NoteBook工具
Apache Zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。
数据社
2020/08/18
1.2K0
Zeppelin安装与配置
Zeppelin配置分为两个部分,一个是Zeppelin Server,另一个则是Interpreter。其中,Zeppelin Server相关配置需要在启动Zeppelin Server之前进行配置。而Interpreter的配置则是可以在Zeppelin Server启动之后,在WEB界面进行配置。
从大数据到人工智能
2022/01/18
1.6K0
Zeppelin安装与配置
动手学Zeppelin数据挖掘生产力怪兽
Apache Zeppelin是一款类似jupyter notebook的交互式代码编辑器。
lyhue1991
2021/04/07
1.9K0
动手学Zeppelin数据挖掘生产力怪兽
Apache Zeppelin 中 Spark 解释器
概述 Apache Spark是一种快速和通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持一般执行图的优化引擎。Zeppelin支持Apache Spark
片刻
2018/01/05
4.3K0
Apache Zeppelin 中 Spark 解释器
Spark on yarn
spark on yarn是spark集群模式之一,通过resourcemanager进行调度,较之standalone模式,不需要单独启动spark服务。
阿dai学长
2020/03/09
1.6K0
Spark on yarn
Zeppelin结合Flink查询hudi数据
Zeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。
从大数据到人工智能
2022/01/18
5570
Zeppelin结合Flink查询hudi数据
Zeppelin 安装与初体验
如果满足以上条件可以点击进入下载页面下载二进制包进行安装。目前稳定版本为 0.8.2 版本。
smartsi
2020/08/31
1.6K0
Zeppelin Interpreter全面解析
在本节中,我们将解释 解释器(Interpreter)、解释器组和解释器设置在 Zeppelin 中的作用。 Zeppelin 解释器的概念允许将任何语言或数据处理后端插入 Zeppelin。 目前,Zeppelin 支持 Scala、Python、Flink、Spark SQL、Hive、JDBC、Markdown、Shell 等多种解释器。
从大数据到人工智能
2022/01/18
2K0
Zeppelin Interpreter全面解析
Flink on Zeppelin 作业管理系统实践
在数仓ETL、实时计算的场景下,我们基于Flink SQL批流一体的框架进行了一定规模的作业迁移。在研发作业管理系统中,我们引入Apache Zeppelin组件作为Flink SQL作业提交客户端,Flink 批流作业可视化预览的核心组件。在一年多时间的产线实践中,我们对作业提交的方式策略进行了几次演进,目前在跑作业规模Flink Batch 任务日均运行超5000次,流作业500+,均稳定运行。
从大数据到人工智能
2022/09/08
2.2K0
Apache Zeppelin配置
片刻
2018/01/05
2.7K0
生态 | Apache Hudi集成Apache Zeppelin
Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。当前Hive与SparkSQL已经支持查询Hudi的读优化视图和实时视图。所以理论上Zeppelin的notebook也应当拥有这样的查询能力。
ApacheHudi
2021/04/13
2.2K0
Flink SQL on Zeppelin - 打造自己的可视化Flink SQL开发平台
目前开发Flink的方式有很多,一般来说都是开发同学写JAVA/SCALA/PYTHON项目,然后提交到集群上运行。这种做法较为灵活,因为你在代码里面可以写任务东西,什么维表JOIN、参数调优,都能很轻松的搞定。但是对开发同学的要求较高,有一定的学习成本。比如有些同学擅长JAVA,有些擅长PYTHON,而在我们的项目开发过程中,是不会允许多种语言共存的,一般来说都是选择JAVA作为我们的开发语言,那么,对于擅长PYTHON的同学来说,再从头开始攀爬JAVA这座大山,而且还得短期能够熟练使用,无疑是难上加难。
王知无-import_bigdata
2021/03/15
5.3K0
Flink SQL on Zeppelin - 打造自己的可视化Flink SQL开发平台
Spark 编程入门
以下为Mac系统上单机版Spark练习编程环境的配置方法。 注意:仅配置练习环境无需安装Hadoop,无需安装Scala。
double
2019/07/17
1.5K0
Spark 编程入门
【推荐系统算法实战】 基于网页的 Notebook:Zeppelin 交互式数据分析
【推荐系统算法实战】 基于网页的 Notebook:Zeppelin 交互式数据分析
一个会写诗的程序员
2019/12/24
1.1K0
【推荐系统算法实战】 基于网页的 Notebook:Zeppelin 交互式数据分析
相关推荐
【数据科学】数据科学中的 Spark 入门
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档