Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >EMR(弹性MapReduce)入门之组件Hue(十三)

EMR(弹性MapReduce)入门之组件Hue(十三)

原创
作者头像
小司机带你入门EMR
修改于 2020-02-14 10:17:07
修改于 2020-02-14 10:17:07
2.1K0
举报
文章被收录于专栏:EMR冲鸭EMR冲鸭

Hue介绍

HUE=Hadoop User Experience

Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。

通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。

Hue的核心功能

  • SQL编辑器,支持Hive, Impala, MySQL, Oracle, PostgreSQL, SparkSQL, Solr SQL, Phoenix…
  • 搜索引擎Solr的各种图表
  • Spark和Hadoop的友好界面支持
  • 支持调度系统Apache Oozie,可进行workflow的编辑、查看

Hue使用

Hue控制台

1、 登录腾讯官网控制台

2、 进入EMR控制页面,点击左侧组件管理页面

3、找到Hue组件,点击“原生WebUI访问地址”进入Hue页面

Hue创建Workflow

一个Workflow 包含多个作业。目前支持Hive, MR, Spark, Shell, Java 可执行程序等多种类型的作业。

通过一个简单的Workflow, 以MR、Spark、Hive. 作为例子。

在菜单中通过【Query】,【Schedule】,【Workflow】进入页面,如图:

进入Workflows编辑页面后,给新建Workflow增加名字,以及描述:

我们创建一个名为hello-workflow的Workflow, 共包含3个作业:MR类型左右、Spark类型作业、HIVE类型作业。这些作业依次执行。

接下来,分别介绍不同类型作业创建过程。

创建MapReduce类型作业

在创建MapReduce类型作业前,需要把可执行Jar, 以及数据存放在HDFS上。在Workflow编辑页面中,选择MapReduce作业类型图标,用鼠标拖动到编辑区,具体创建作业步骤如下:

填写Jar路径,注意是HDFS上的路径,填写作业参数:

注意:(1)填写可执行Jar在HDFS中的路径;(2)填写Jar所需参数,在本例子中是数据输入和输出路径。

点击右上角保存按钮,保存当前作业配置,至此,我们在Hello-workflow中又增加了一个MR类型的作业。

创建hive类型作业

在创建Hive类型作业前,请确认EMR实例中已经部署了Hive组件,否则作业执行将失败。

将要执行的Hive存放在HDFS中,拖拽Hive作业图标至Workflow编辑区,填写Hive脚本所在路径,具体步骤如下:

点击右上角保存按钮,保存作业配置。

创建spark类型作业

在创建Spark作业前,请确认EMR实例中已经部署了Spark组件,否则作业将执行失败;

将要执行的Spark作业可执行文件存放至HDFS中;在本例子中,将Spark作业可执行文件存放在HDFS的/tmp/spark-terasort-1.1-SNAPSHOT-jar-with-dependencies.jar,将代表Spark类型作业的图片,用鼠标拖拽至Workflow编辑区,具体步骤如下:

填写作业参数:

注意:1处填写可执行程序名称,本例中是Jar包名称;2处填写可执行程序所需参数,注意参数顺序与程序参数顺序一致;3处填写可执行程序在HDFS中的路径;4处填写Spark任务所需参数

点击右上角保存按钮,保存作业配置,至此,我们为hello-workflow 增加了Spark类型作业。

Hue常见故障

1、Hue输入界面写SQL 语句,输入异常。

详细信息:通过HUE写稍复杂的SQL语句时,键入一个字符会自动打印出一串不规则字符

原因:Hue本身默认会开启自动补充语句功能,但是这个功能是有bug的,到导致键入异常,非输入sql语句也可能遇到键入异常情况。

解决方法:在hue写sql时,在页面按【ctrl+,】会弹出一个右边窗口,然后把Enable Autocompleter 这项去掉就可以了。

2、EMR集群中Hue执行报错,jar包不存在的情况。

解决方法:确认文件路径;用户自定义的udf包,应放入hdfs永久目录,方便共享,不应放入临时目录,避免会话清空

3、Hue工作流无法使用

详细信息:

EMR hue工作流计算无法使用:报错信息如下:

JA006: Call From 172.16.0.17/172.16.0.17 to 172.16.0.17:5022 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused

原因分析:

从hue任务报错信息来看,时yarn jobhistory server挂了,这个机器负载比较重,内存使用一致很高,经常有这种因内存不足kill进程的情况。

解决方法:

升级master节点配置,或者新增router节点跑hue任务。

4、Hue访问hive权限问题

详细信息:使用root用户登录hue访问hive时权限问题。

原因分析:由于客户后安装了ranger,安装之后没有重启,因此ranger一直没有生效,客户能通过root在hue上访问hive,突然重启后发现不能访问了。

解决方案:后安装ranger(集群创建好后增加的组件)需要重启组件才能生效建议在产品上提示用户重启。

5、Hue UI无法访问

原因分析:

机器上少了这个文件。

/usr/local/service/hue/build/static/desktop/art/hue-login-logo-ellie

解决方案:

在其他集群上找到这个文件放在机器上。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
EMR入门学习之Hue上创建工作流(十一)
本文将通过一个简单,并且具有典型代表的例子,描述如何使用EMR产品中的Hue组件创建工作流,并使该工作流每天定时执行。
披荆斩棘
2019/11/22
1.6K0
「EMR 开发指南」之 Hue 配置工作流
本文将通过一个简单,并且具有典型代表的例子,描述如何使用EMR产品中的Hue组件创建工作流,并使该工作流每天定时执行。
岳涛
2024/06/30
2671
「EMR 开发指南」之 Hue 配置工作流
腾讯云EMR使用说明: 配置工作流
本文将通过一个简单,并且具有典型代表的例子,描述如何使用EMR产品中的Hue组件创建工作流,并使该工作流每天定时执行。
fastio
2018/05/03
12.3K0
腾讯云EMR使用说明: 配置工作流
EMR(弹性MapReduce)入门之初识EMR(一)
现在混迹技术圈的各位大佬,谁还没有听说过“大数据”呢?提起“大数据”不得不说就是Google的“三架马车”:GFS,MapReduce,Bigtable,分别代表着分布式文件系统、分布式计算、结构化存储系统。可以说这“三架马车”是大数据的基础。
小司机带你入门EMR
2020/01/16
11.6K5
EMR(弹性MapReduce)入门之初识EMR(一)
腾讯云 EMR 常见问题100问 (持续更新)
Hadoop 目前是数据处理的标准工具,其核心组件包含了HDFS(分布式文件系统)、YARN(资源调度平台)、
benyukiwang
2019/07/02
5.6K1
EMR(弹性MapReduce)入门之计算引擎Spark、Tez、MapReduce区别(八)
Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的。
小司机带你入门EMR
2020/02/11
2.7K0
EMR(弹性MapReduce)入门之组件Flume和Sqoop(十四)
连接传统关系型数据库和Hadoop的桥梁 把关系型数据库的数据导入到 Hadoop 系统 ( 如 HDFS、HBase 和 Hive) 中; 把数据从 Hadoop 系统里抽取并导出到关系型数据库里
小司机带你入门EMR
2020/02/14
1.8K0
EMR(弹性MapReduce)入门之数据仓库工具Hive组件使用(十一)
Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。
小司机带你入门EMR
2020/02/13
2K0
EMR(弹性MapReduce)入门之数据仓库工具Hive组件使用(十一)
EMR(弹性MapReduce)入门之其他组件使用和排障(十二)
服务器启动时,Impalad与StateStore保持心跳。首先Impala节点会将自己节点的状态信息汇报给Statestore,Statestore实时监控impalad是否发生故障。然后Catalog与Hive进行通信,将Hive中Metastore中的元数据信息拉取到自己的字节上,然后以广播的形式发送给每个状态良好的Impalad节点上,使各个节点上的元数据保持一致。然后当客户端进行提交sql请求的时候,不会再向那个hive中进行MRjob了,而是直接作用在Impalad上,直接在impalad上生成执行计划数,进行快速查询。Impalad由于作用在HDFS上或者HBase上的,所以不许转换成MR job的sql请求时非常快的了。Query任务的执行直接是作用在HDFS上的。
小司机带你入门EMR
2020/02/13
1K0
如何在HUE上执行Java程序
基于HUE系统,使用平台自带的hadoop-mapreduce-examples.jar对一个文本文件执行wordcount操作。
create17
2019/03/12
2.1K2
HUE配置与各服务集成使用
特别说明:该专栏文章均来源自微信公众号《大数据实战演练》,欢迎关注!
create17
2019/02/14
3.8K0
HUE配置与各服务集成使用
客快物流大数据项目(七十八):Hue简介
HUE是一个开源的Apache Hadoop UI系统,早期由Cloudera开发,后来贡献给开源社区。该web应用的后台采用python编程语言编写的。通过使用Hue我们可以通过浏览器方式操纵Hadoop集群进行交互来分析处理数据。
Lansonli
2022/12/19
8730
客快物流大数据项目(七十八):Hue简介
Hive 入门
Hive 的底层执行引擎有 :MapReduce,Tez,Spark - Hive on MapReduce - Hive on Tez - Hive on spark
Meet相识
2018/09/12
7560
Hive 入门
Hadoop的生态系统介绍
Hadoop分布式文件系统是Hadoop项目的两大核心之一,是针对谷歌文件系统(GoogleFileSystem,GFS)的开源实现。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
全栈程序员站长
2022/08/31
1.2K0
Hadoop的生态系统介绍
EMR入门学习之EMR初步介绍(一)
Elastic MapReduce(EMR)是腾讯云提供的云上 Hadoop 托管服务,提供了便捷的 Hadoop 集群部署、软件安装、配置修改、监控告警、弹性伸缩等功能,EMR部署在腾讯云平台(CVM)上,配合消息中间件、CDB等产品为企业提供了一套较为完善的大数据处理方案。如下图所示为EMR系统架构图:
披荆斩棘
2019/11/13
7.3K0
Alluxio集群搭建并整合MapReduce/Hive/Spark
Alluxio是世界上第一个虚拟的分布式存储系统,以内存速度统一了数据访问。它为计算框架和存储系统构建了桥梁,使应用程序能够通过一个公共接口连接到许多存储系统。Alluxio以内存为中心的架构使得数据的访问速度能比现有方案快几个数量级。
岳涛
2021/03/25
1.9K3
Alluxio集群搭建并整合MapReduce/Hive/Spark
EMR(弹性MapReduce)入门之EMR集群的常用操作(四)
在上一章我们学习了EMR集群的监控和报警功能,其实EMR集群还有很多功能会经常用到,我带着大家一起去了解一些其他的常用操作吧!
小司机带你入门EMR
2020/02/24
2K0
CDH——Cloudera’s Distribution Including Apache Hadoop
补充: 为什么 在 Hadoop 2.x 中 HDFS 中有 ZKFC 进程,而 yarn 却没有? 在 Hadoop 1.x 升级到 Hadoop 2.x 的过程中,考虑到向下兼容的问题, NameNode 进程没有嵌入 ZKFC 中的代码,而另外开辟一个进程 ZKFC 。 再者由于 Hadoop 1.x 中没有 yarn 组件,Hadoop 2.x 中才出现的 yarn 组件, 所以 yarn 不用考虑向下兼容的问题,即 ResourceManager 进程就直接嵌入 ZKFC 中的代码,只运行一个进程。
时间静止不是简史
2020/07/27
1.6K0
CDH——Cloudera’s Distribution Including Apache Hadoop
EMR入门学习之MR、Tez、Spark之间的关系(六)
Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。
披荆斩棘
2019/11/18
4K0
如何在Oozie中创建有依赖的WorkFlow
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在使用Hue创建WorkFlow时,单个WorkFlow中可以添加多个模块的依赖,使各个模块之间在WorkFlow内产生依赖关系,如果对于一个WorkFlow被其它多个WorkFlow依赖(如:AWorkFlow执行成功后,BWorkFlow和CWorkFlow依赖AWorkFl
Fayson
2018/07/12
6.7K2
相关推荐
EMR入门学习之Hue上创建工作流(十一)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档