开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >EMR上Zeppelin入门

EMR上Zeppelin入门

原创

程序猿

发布于 2018-08-12 14:02:47

发布于 2018-08-12 14:02:47

1.6K0

举报

文章被收录于专栏：公有云大数据平台弹性 MapReduce公有云大数据平台弹性 MapReduce

什么是Zeppelin？

简而言之，就是一个大数据分析平台。用户可以利用提供好的WEB UI，在线编写分析逻辑代码，输出结果，并且能够利用可视化工具，形象生动的在线展示结果。

基础知识

notebook：是一个自己的工作环境，可以在notebook中执行大数据分析的逻辑，可以配置interpreter，可以设置权限等。基本上所有web上的操作都会在一个notebook中进行

interpreter：是zeppelin的核心概念-解析器，zeppelin通过解析器（interpreter）将用户输入转换为后台服务命令。具体原理请自行查阅资料。

Zeppelin安装

直接通过zeppelin官网。我下载的是包括了所有interpreter的压缩包

下载完成之后，解压然后运行（unix platform）：bin/zeppelin-daemon.sh start

这个时候你就能访问8080端口来访问zeppelin服务了

接入spark on yarn集群

接入spark on yarn非常简单，只用在conf/zeppelin-env.sh中加入两个配置即可

export MASTER=yarn-client
export SPARK_HOME=/usr/local/service/spark

master是zeppelin底层调用spark的参数，熟悉利用命令行通过spark提交任务的朋友应该比较熟悉：$SPARK_HOME/bin/spark-submit --class package.SparkStudy --master yarn-cluster ./wordcount.jar some_params

上面这个命令是shell下利用spark提交任务到yarn上的最简单的方式（只指出了运行模式，jar包以及运行的class，其他参数全部默认，也不包含输入输出），其中master就是我们在zeppelin中设置的master，zeppelin并不支持yarn-cluster，所以我们选择yarn-lient。SPARK_HOME就是本地的SPARK根目录。设置好之后，就可以重启zeppelin了。

下面就可以利用zeppelin在线调用我的spark on yarn集群了

下面利用python脚本生成需要处理的数据：

该脚本随机生成了10亿个0~99的随机数，下面将利用zeppelin分析该数据，完成一个统计工作，看看python随机数是否均衡。数据生成完之后，利用命令将数据保存在hdfs当中（hdfs dfs -put local-data dfs-dir）。

此时我们已经拥有了数据，下面就开始直接在zeppelin上进行分析吧

使用zeppelin:

首先访问8080端口，然后新建一个note

点击创建Note进入到一下页面

下面就可以在输入框中编写逻辑代码了，默认使用spark（创建note的时候有配置过）

下面我直接给出结果的截图：

我总共提交了三块代码，分别是spark和2个sparkSQL的代码

最终第三块的sparkSQL是对这10亿数字分配在0~99里的总误差，可以发现总误差非常非常小，说明python的random.randint还是非常均匀的。

注意：

1. zeppelin架在spark on yarn上，用的是yarn-client模式，所以AM会在本机启动

2. 请确保自己的spark on yarn没有有问题

3. 在生成10亿数据时，应该采用xrange(10亿)，而不是range(10亿)，一个小细节，懂python的应该知道。

4. zeppelin还支持很多的interpreter，以上流程只介绍了spark和sparksql，大家可以自己研究一下，使用各种解析器完成分析工作。

PS：如果文中有错误的地方，请各位大神指点一下，本人菜鸟很多东西不甚了解，谢谢

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

【数据科学】数据科学中的 Spark 入门

本文由伯乐在线 - zhique 翻译，xxmen 校稿。未经许可，禁止转载！英文出处：Ram Sriharsha。欢迎加入翻译组。 Apache Spark 为数据科学提供了许多有价值的工具。随着 Apache Spark 1.3.1 技术预览版的发布，强大的 Data Frame API 也可以在 HDP 上使用数据科学家使用数据挖掘和可视化来帮助构造问题架构并对学习进行微调。Apache Zeppelin 正好能够帮他们做到这些。 Zeppelin 是一个基于 Web 的 notebook 服务器

陆勤_数据人网

2018/02/26

1.6K0

【数据科学】数据科学中的 Spark 入门

Zeppelin 安装部署实验

hadoop spark http hive 数据库

一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境： 12个节点的Spark集群，以standalone方式部署，各个节点运行的进程如表1所示。

用户1148526

2022/05/07

4760

Zeppelin 安装部署实验

NoteBook学习（二）-------- Zeppelin简介与安装

SSL 证书 github git 开源 http

　　多用途的笔记本。数据的采集发现分析可视化协作。。支持20+种后端语言，支持多种解释器内置集成Spark

大数据流动

2019/08/08

1.8K0

Zeppelin原理简介

数据库 spark sql yarn shell

Zeppelin是一个基于Web的notebook，提供交互数据分析和可视化。后台支持接入多种数据处理引擎，如spark，hive等。支持多种语言： Scala(Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。本文主要介绍Zeppelin中Interpreter和SparkInterpreter的实现原理。

全栈程序员站长

2022/09/20

6030

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（五）

spark git github hive 开源

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52370045

用户1148526

2019/05/25

1.2K0

CDH 6.3.1整合Zeppelin 0.8.2

专用宿主机 hive 云数据库 SQL Server spark 数据可视化

Zeppelin是一个基于Web的笔记本，可以直接在浏览器中编写代码，对数据进行查询分析并生成报表或图表，做出数据驱动的、交互、协作的文档，并且可以共享笔记。Zeppelin提供了内置的Apache Spark集成，提供的功能有：

用户1148526

2020/03/18

2.4K0

CDH 6.3.1整合Zeppelin 0.8.2

推荐一款可视化+NoteBook工具

hive xml bash bash 指令 apache

Apache Zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。

数据社

2020/08/18

1.2K0

Zeppelin安装与配置

flink 大数据 xml bash bash 指令

Zeppelin配置分为两个部分，一个是Zeppelin Server，另一个则是Interpreter。其中，Zeppelin Server相关配置需要在启动Zeppelin Server之前进行配置。而Interpreter的配置则是可以在Zeppelin Server启动之后，在WEB界面进行配置。

从大数据到人工智能

2022/01/18

1.6K0

动手学Zeppelin数据挖掘生产力怪兽

开源 jupyter notebook markdown flink

Apache Zeppelin是一款类似jupyter notebook的交互式代码编辑器。

lyhue1991

2021/04/07

1.9K0

动手学Zeppelin数据挖掘生产力怪兽

Apache Zeppelin 中 Spark 解释器

概述 Apache Spark是一种快速和通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持一般执行图的优化引擎。Zeppelin支持Apache Spark

片刻

2018/01/05

4.3K0

Apache Zeppelin 中 Spark 解释器

spark on yarn是spark集群模式之一，通过resourcemanager进行调度，较之standalone模式，不需要单独启动spark服务。

阿dai学长

2020/03/09

1.6K0

Zeppelin结合Flink查询hudi数据

sql apache 腾讯云开发者社区 flink python

Zeppelin是基于 Web 的notebook，是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。

从大数据到人工智能

2022/01/18

5570

Zeppelin结合Flink查询hudi数据

Zeppelin 安装与初体验

如果满足以上条件可以点击进入下载页面下载二进制包进行安装。目前稳定版本为 0.8.2 版本。

smartsi

2020/08/31

1.6K0

Zeppelin Interpreter全面解析

spark python jdbc flink 编程算法

在本节中，我们将解释解释器（Interpreter）、解释器组和解释器设置在 Zeppelin 中的作用。 Zeppelin 解释器的概念允许将任何语言或数据处理后端插入 Zeppelin。目前，Zeppelin 支持 Scala、Python、Flink、Spark SQL、Hive、JDBC、Markdown、Shell 等多种解释器。

从大数据到人工智能

2022/01/18

2K0

Zeppelin Interpreter全面解析

Flink on Zeppelin 作业管理系统实践

sql flink 大数据 scala

在数仓ETL、实时计算的场景下，我们基于Flink SQL批流一体的框架进行了一定规模的作业迁移。在研发作业管理系统中，我们引入Apache Zeppelin组件作为Flink SQL作业提交客户端，Flink 批流作业可视化预览的核心组件。在一年多时间的产线实践中，我们对作业提交的方式策略进行了几次演进，目前在跑作业规模Flink Batch 任务日均运行超5000次，流作业500+，均稳定运行。

从大数据到人工智能

2022/09/08

2.2K0

Apache Zeppelin配置

片刻

2018/01/05

2.7K0

生态 | Apache Hudi集成Apache Zeppelin

hive jar spark apache 文件存储

Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。当前Hive与SparkSQL已经支持查询Hudi的读优化视图和实时视图。所以理论上Zeppelin的notebook也应当拥有这样的查询能力。

ApacheHudi

2021/04/13

2.2K0

Flink SQL on Zeppelin - 打造自己的可视化Flink SQL开发平台

flink 大数据 java linux yarn

目前开发Flink的方式有很多，一般来说都是开发同学写JAVA/SCALA/PYTHON项目，然后提交到集群上运行。这种做法较为灵活，因为你在代码里面可以写任务东西，什么维表JOIN、参数调优，都能很轻松的搞定。但是对开发同学的要求较高，有一定的学习成本。比如有些同学擅长JAVA，有些擅长PYTHON，而在我们的项目开发过程中，是不会允许多种语言共存的，一般来说都是选择JAVA作为我们的开发语言，那么，对于擅长PYTHON的同学来说，再从头开始攀爬JAVA这座大山，而且还得短期能够熟练使用，无疑是难上加难。

王知无-import_bigdata

2021/03/15

5.3K0

Flink SQL on Zeppelin - 打造自己的可视化Flink SQL开发平台

Spark 编程入门

编程算法 scala 缓存 shell

以下为Mac系统上单机版Spark练习编程环境的配置方法。注意：仅配置练习环境无需安装Hadoop，无需安装Scala。

double

2019/07/17

1.5K0

【推荐系统算法实战】基于网页的 Notebook：Zeppelin 交互式数据分析

spark apache http kotlin markdown

【推荐系统算法实战】基于网页的 Notebook：Zeppelin 交互式数据分析

一个会写诗的程序员

2019/12/24

1.1K0

【推荐系统算法实战】基于网页的 Notebook：Zeppelin 交互式数据分析

相关推荐

【数据科学】数据科学中的 Spark 入门

更多 >

LV.0

这个人很懒，什么都没有留下～

作者相关精选

MR调优实战

加入讨论

的问答专区 >

KOL擅长5个领域

相关课程

一站式学习中心 >

腾讯云向量数据库-RAG七天入门训练营

向量数据库

腾讯云安灯

ES Serverless一站式日志分析入门到精通

Elasticsearch Service