Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯云 EMR 常见问题100问 (持续更新)

腾讯云 EMR 常见问题100问 (持续更新)

原创
作者头像
benyukiwang
修改于 2019-07-02 10:06:12
修改于 2019-07-02 10:06:12
5.6K1
举报
文章被收录于专栏:数据库&大数据数据库&大数据

emr 常见问题100问

写在前面1:

腾讯云EMR 组件简介

1.1 Hadoop

Hadoop 目前是数据处理的标准工具,其核心组件包含了HDFS分布式文件系统)、YARN(资源调度平台)、

MapReduce(分布式迭代计算框架),腾讯云EMR 提供的存储除了支持HDFS 外还支持腾讯云对象存储COS。

1.2 Hive

Hive 是一个基于hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。它把海量数据存储于hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用HQL (类SQL )语言对这些数据 进行自动化管理和处理,腾讯云EMR 提供的Hive 除了支持HDFS 作为存储外,还支持腾讯云对象存储, 同时腾讯 云EMR 提供的Hive 其计算引擎支持MR、SparkV2、Tez。

1.3 Hbase

是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库

1.4 Oozie

Oozie 是运行在hadoop 平台上的一种工作流调度引擎,它可以用来调度与管理hadoop 任务,如,MapReduce、Pig等

1.5 Zookeeper

Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于 文件系统的目录节点树方式的数据存储,Zookeeper 作用主要是用来维护和监控存储的数据的状态变化,通过监控 这些数据状态的变化,从而达到基于数据的集群管理。

1.6 Hue

Hadoop 开发集成环境工具,您可以在hue 上执行hive 查询、创建oozie 调度任务、管理yarn 任务、hbase 数据表管理以及hive 元数据管理等。

1.7 Spark

Spark 是基于内存计算的大数据分布式计算框架。Spark 基于内存计算,提高了在大数据环境下数据处理的实时性, 同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群。

1.8 Storm

是一个分布式的,可靠的,容错的数据流处理系统

1.9 Flink

是一个可伸缩的开源批处理和流处理平台。其核心模块是一个数据流引擎,该引擎在分布式的流数据处理的基础上

提供数据分发、交流、以及容错的功能。

1.10 Sqoop

是一款用于hadoop 和关系型数据库之间数据导入导出的工具。你可以通过sqoop 把数据从数据库(比如

mysql,oracle)导入到hdfs 中;也可以把数据从hdfs 中导出到关系型数据库中。sqoop 通过Hadoop 的MapReduce 导入导出,因此提供了很高的并行性能以及良好的容错性。

写在前面2:目前腾讯云对外售卖版本为201版本,131版本不再售卖,存量维护

EMR2.0.1各售卖组件版本

flink 1.2.0

ganglia 3.7.2

hadoop 2.7.3

hbase 1.3.1

hive 2.3.2

hue 3.12.0

knox 1.2.0

oozie 4.3.1

presto 0.188

ranger 0.7.1

spark_hadoop2.7 2.2.1

sqoop 1.4.6

storm 1.1.0

tez 0.8.5

zookeeper 3.4.9

EMR1.3.1各组件版本

flink 1.2.0

ganglia 3.7.2

hadoop 2.7.3

hbase 1.2.4

hive 2.1.1

hue 3.12.0

oozie 4.3.1

presto 0.161

spark_hadoop2.7 2.0.2

sqoop 1.4.6

storm 1.1.0

tez 0.8.5

zookeeper 3.4.9

写在前面3:

挖坑暂留

正题:常见问题100问:

1、spark 是否同时支持python2和python3,如果不是怎么修改为python3,

另外在控制台创建完EMR集群是否可以直接使用,需要做其他操作么?在Hadoop.env.sh配置页面看到java环境变量是这样的,没有export吗?

image.png
image.png

答:是同时支持python2.6 python2.7和python3

默认是2.6

2.7和3的版本在/usr/local/anacoda2 和anacoda3中有相应版本2.提交任务时候可以这样切换

--conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/usr/local/python27/bin/python

--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python27/bin/python

3.创建可以直接使用

4.java_home有直接配置在/etc/profile中

问题2:关系型数据库中 密码被改掉那么ooize与 hue 也无法使用需要改动哪里呢?密码默认路径又是在哪里呢?

答:hue的密码在/usr/local/service/hue/desktop/conf/ pseudo-distributed.ini 第529 行

oozie的在/usr/local/service/oozie/conf/oozie-site.xml

修改完重启下进程会生效,可以直接kill,监控会自动拉起

问题3:请问客户购买EMR的时候没有选择HBASE,现在想用是要重新购买吗?

答:可以后台用流程后安装,需要用户提供集群号来增补,增补的hbase为默认参数库,如果生产使用需要使用SSD盘以及调整下参数

问题4:emr的hbase组件可以开通公网吗?

答:如果想通过公网连接hbase,可以让用户通过连接thriftServer,来公网访问

问题5:emr支持动态的扩容缩容吗?

答:支持的 core和task可以扩容,task节点可以支持缩容。都可以在控制台和api中支持

image.png
image.png

问题6:客户有1T的数据要同步到hbase,那就是购买的时候core节点选择1T就可以了么?还有其他指标需要注意的吗?

答:1T数据购买是不够, hdfs存储3副本的, 而且还需要预留部分剩余空间, 另外还需要考虑数据增长量

hbase推荐配置 ssd本地>ssd云>本地盘>云盘 高io机型>标准型

问题7:后续上线hbase后从emr的hbase迁移到独立的hbase有什么需要注意的吗?或者有什么工具可以直接迁过去?

答:可以备份后迁移

问题8:请问如何将 第三方的jar 自动化的包分发到 每个node的hive的lib 下面, 下面是在hive客户端

导入bson 之后出现的问题:我现在需要用到superset这样的bi平台工具, 所以不能输入 add jar *.jar,这样的命令,所以会出现下图所示的问题

image.png
image.png

答:https://my.oschina.net/cjun/blog/494692 让用户参考这个设置下额外的jar

hive需要引入jar包--HIVE.AUX.JARS.PATH和hive.aux.jars.path(HIVE以及OOZIE添加第三方JAR包的方法)

问题9:请问如何在 非集群的机器上把 spark-submit 任务给集群?

答:把 /usr/local/service/spark和/usr/local/service/hadoop 拷贝到机器上试试

2018.11.25增补

问题10:请问客户要扩容master节点配置(内存)的话直接在CVM升级就可以了吧?备份节点和master节点的配置是否要保持一致?

答;控制台升级最好,备份节点和master节点最好保持一致,其他节点不需要保持一致

问题11:请问一下咱们可以直接使用节点提交任务到集群吧?不需要额外的client机器

答:是的,master可以提交,其他节点也可以。

问题12:master云机配置做了升级(8C32G),但是emr的前端显示为什么还是旧的(4C16G)?

答:emr不是实时拉取CVM的配置,前台展示的是当时购买的规格,需要人工调整

问题13:原生的webhdfs方式无法保证namenode 飘移的情况下,访问处于actiavte的namenode;需要通过httpfs方式访问访问hdfs,

但是配套的组件默认只有webhdfs,不能满足客户的使用场景,怎么办?

答:可以使用,用rpc方式的形式访问;客户端是java的,可以使用native的方式访问

问题14:EMR core配置的普通云盘客户要调整到16T,但是我们控制台界面无法拉到这么大,这是什么原因?

image.png
image.png

答:这个是cbs那边的限制,使用包年包月可以到16T,CBS的按量计费只能4T

问题15:用hive读取COS的文件,是否有HDFS对文件分block和replica等这些提高计算并行度和吞吐量的特性呢?目前hdfs是默认的3个replica。

目前客户用的是hive分析cos上的日志。但是发现速度计算速度非常慢,所以想确认一下,用hive分析cos上的文件是否享有hdfs的优势。

答:block & replica 对用户都是不可见的。 数据放COS上,能节约些CPU时间,对计算密集型任务是有好处的。

问题16:请问EMR中有169.254.0.53这个IP的具体功能是什么呢?

答:这个ip不是emr的特有ip,2022和2055是这个ip和我们后台通信的固定端口

问题17:EMR HBASE啥时能支持客户从公网访问?

答:直接搭建个thriftserver就可以实现

问题18:客户新建了一个EMR集群 查询出来有9台机器,最后这两台是这个集群中的吗?

image.png
image.png

答:ha集群2个master 3个common ,3个core,1个tasknode,一共9个点

common 一定是本地盘,起zk和journalnode的

问题19:emr的hbase能在本地自建从库么,类似mysql在云服务器自建从库那种?

答:hbase有自带的通用export和import工具

问题20:spark-submit emr的组件的安装目录在哪里?

答:spark-submit emr的组件是安装装/usr/local/service/spark下

问题21:想修改dfs.data.dir的路径可以么

答:dfs.data.dir属于敏感字段,不提供用户自定义修改,如果确实需要,请联系后台特殊支持

问题22:为什么点击查看yarn的日志会这样?难道跟这个问题一样?

https://blog.csdn.net/stark_summer/article/details/47616773

image.png
image.png

答:任务结束后,container已经不存在了,需要看过去的日志,需要上机器执行命令:

yarn logs --applicationId your_app_id 来查看具体任务日志

问题23:emr-yarn监控界面无法查看spark任务的history,点击history,无跳转,这是怎么回事?

image.png
image.png

答:任务已经结束了,history信息用历史日志通过yarn logs看

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
学习了
学习了
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
EMR(弹性MapReduce)入门之初识EMR(一)
现在混迹技术圈的各位大佬,谁还没有听说过“大数据”呢?提起“大数据”不得不说就是Google的“三架马车”:GFS,MapReduce,Bigtable,分别代表着分布式文件系统、分布式计算、结构化存储系统。可以说这“三架马车”是大数据的基础。
小司机带你入门EMR
2020/01/16
11.6K5
EMR(弹性MapReduce)入门之初识EMR(一)
EMR(弹性MapReduce)入门之组件Hue(十三)
Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。
小司机带你入门EMR
2020/02/14
2.1K0
腾讯云大数据平台的产品组件介绍及测试方法
本文介绍了大数据计算引擎在数据平台中的重要性,重点讲解了Hadoop、Spark、Flink和ClickHouse这四种引擎的特点和适用场景。通过对比分析,总结了各引擎在性能、易用性、功能丰富度、适用业务场景等方面的差异。同时,分享了在金融、互联网、运营商、公共服务等行业中,各引擎在实时分析、离线批处理、海量数据存储等方面的实践案例。此外,还探讨了各引擎在数据开发、数据治理、数据服务等方面的挑战和机遇。
王燚
2017/08/28
7.5K0
腾讯云大数据平台的产品组件介绍及测试方法
EMR入门学习之EMR初步介绍(一)
Elastic MapReduce(EMR)是腾讯云提供的云上 Hadoop 托管服务,提供了便捷的 Hadoop 集群部署、软件安装、配置修改、监控告警、弹性伸缩等功能,EMR部署在腾讯云平台(CVM)上,配合消息中间件、CDB等产品为企业提供了一套较为完善的大数据处理方案。如下图所示为EMR系统架构图:
披荆斩棘
2019/11/13
7.3K0
如何卸载CDH7.1.1
在主节点使用命令:systemctl stop cloudera-scm-server 停止服务
soundhearer
2020/10/15
1K0
如何卸载CDH7.1.1
0818-7.1.1-如何卸载CDP
以上三种方法也可以只使用于关键数据,具体使用哪种方法,可以根据自己集群的规模和数据量大小具体选择。
Fayson
2020/11/30
1.2K0
0818-7.1.1-如何卸载CDP
大数据学习之路(持续更新中...)
在16年8月份至今,一直在努力学习大数据大数据相关的技术,很想了解众多老司机的学习历程。因为大数据涉及的技术很广需要了解的东西也很多,会让很多新手望而却步。所以,我就在自己学习的过程中总结一下学到的内容以及踩到的一些坑,希望得到老司机的指点和新手的借鉴。 前言 在学习大数据之前,先要了解他解决了什么问题,能给我们带来什么价值。一方面,以前IT行业发展没有那么快,系统的应用也不完善,数据库足够支撑业务系统。但是随着行业的发展,系统运行的时间越来越长,搜集到的数据也越来越多,传统的数据库已经不能支撑全量数
用户1154259
2018/01/17
1.6K0
大数据学习之路(持续更新中...)
EMR常见FAQ (持续更新中)
1. 去到不健康节点的机器,用du命令去查看/data目录数据大小的分布情况,找出占比最大的目录
shangwen_
2018/09/17
1.6K0
EMR常见FAQ (持续更新中)
进阶指南|三个月大数据工程师学习计划
本文来自作者在GitChat(ID:GitChat_Club)上的精彩分享,CSDN独家合作发布。 申明:本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学。 前言 一、背景介绍 本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。 二、大数据介绍 大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非
CSDN技术头条
2018/02/08
1.7K0
进阶指南|三个月大数据工程师学习计划
CDH——Cloudera’s Distribution Including Apache Hadoop
补充: 为什么 在 Hadoop 2.x 中 HDFS 中有 ZKFC 进程,而 yarn 却没有? 在 Hadoop 1.x 升级到 Hadoop 2.x 的过程中,考虑到向下兼容的问题, NameNode 进程没有嵌入 ZKFC 中的代码,而另外开辟一个进程 ZKFC 。 再者由于 Hadoop 1.x 中没有 yarn 组件,Hadoop 2.x 中才出现的 yarn 组件, 所以 yarn 不用考虑向下兼容的问题,即 ResourceManager 进程就直接嵌入 ZKFC 中的代码,只运行一个进程。
时间静止不是简史
2020/07/27
1.6K0
CDH——Cloudera’s Distribution Including Apache Hadoop
Hadoop的生态系统介绍
Hadoop分布式文件系统是Hadoop项目的两大核心之一,是针对谷歌文件系统(GoogleFileSystem,GFS)的开源实现。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
全栈程序员站长
2022/08/31
1.2K0
Hadoop的生态系统介绍
0480-如何从HDP2.6.5原地迁移到CDH5.16.1
我们常使用的Hadoop平台包括Apache Hadoop,CDH和HDP,有时我们会碰到需要迁移平台的情况,举个例子,比如你已经一直在使用Apache Hadoop2.4,近期看到CDH6附带Hadoop3发布了,想迁移到CDH并且做整个平台的所有组件升级。平台迁移和平台升级的方式基本一样的,一般有2种大的选择,第一种是原地升级即直接在原有平台上操作,该办法操作效率较高,马上看到效果,但往往风险较高,比如升级失败回滚方案不完善,跨大版本比如Hadoop2到Hadoop3可能HDFS还有丢数据的风险;第二种是拷贝数据的方式升级,需要额外的服务器资源,会新搭平台,然后把旧的平台的数据拷贝过去,数据拷贝完毕后,再把旧集群的机器下线了慢慢加入到新集群,该方法一般实施周期较长,但是风险较小。根据实际情况可以选择不同的方式来进行平台迁移或者平升级,另外对于两种方案还可以具体细化分类出不同的方案,比如第一种方案考虑提前备份数据或者备份关键数据等,本文Fayson不做细化讨论。
Fayson
2018/12/27
8520
0480-如何从HDP2.6.5原地迁移到CDH5.16.1
Ambari自定义服务干货
                    “ ambari自定义服务干货,非常干的那种”
create17
2018/12/13
4.2K17
java转大数据方向如何走?
大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。
张哥编程
2024/12/19
1590
java转大数据方向如何走?
离线同步方案
Apache Sqoop是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具。http://sqoop.apache.org/
单核
2022/02/21
1.9K0
一键式完全删除CDH 6.3.1
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
用户1148526
2019/11/12
3.2K0
Hadoop生态圈各种组件介绍
好多初入学习大数据的人不是很清楚,今天分享一个图,并介绍一下大致的组件,其他还有一些组件是没有包含在其中的,但是大部分这个图片是有了的。
全栈程序员站长
2022/08/31
2.1K0
Hadoop生态圈各种组件介绍
0719-5.10.0-如何在RedHat7.2使用rpm安装CDH(无CM)
在进行CDH集群安装部署的时候,官方提供了三种方式,parcels、packages以及tarball,官方推荐使用parcels的方式进行安装,这也是最常用的安装方式,通常我们使用CM图形化界面的操作方式来安装CDH集群,本文档将介绍的是官方提供的另一种安装方式,使用packages安装,即rpm包的方式进行CDH集群的安装,并且本次安装是使用没有CM的方式进行安装。
Fayson
2019/10/31
1.3K0
0719-5.10.0-如何在RedHat7.2使用rpm安装CDH(无CM)
ambari系列--报错问题
hbase 启动不起来,通常是因为节点日期不同步。 HDFS 无法启动,通常是因为hdfs 进入了安全模式,需要先退出来,再启动。
Dlimeng
2023/06/29
4960
手把手教你入门Hadoop(附代码资源)
作者:GETINDATA公司创始人兼大数据顾问彼得亚·雷克鲁斯基(Piotr Krewski)和GETINDATA公司首席执行官兼创始人亚当·卡瓦(Adam Kawa)
数据派THU
2018/07/30
5940
手把手教你入门Hadoop(附代码资源)
相关推荐
EMR(弹性MapReduce)入门之初识EMR(一)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档