CDH平台的使用过程中,部分用户会将Hadoop平台的管理功能(如:服务组件的启停操作等)集成到公司现有的平台中,本篇文章Fayson主要介绍如何通过Cloudera Manager API接口和curl命令远程的启动平台组件。
在使用CDH集群大数据平台过程中,用户会有需求在自己的统一管理平台上通过API接口能够动态的设置Yarn资源池,Cloudera Manager提供了丰富的API接口对CDH集群的各个服务进行配置等操作,本篇文章Fayson主要介绍如何使用curl命令调用CM的API接口动态的配置Yarn资源池并使其生效。
前面Fayson介绍了多种方式在CDH集群外的节点向集群提交Spark作业,文章中均采用Spark1来做为示例,本篇文章主要介绍如何是用Oozie API向Kerberos环境的CDH集群提交Spark2作业。
前面Fayson介绍了使用Oozie API向Kerberos和非Kerberos集群提交Spark和Java作业,本篇文章主要介绍如何使用Oozie Client API向Kerberos环境的CDH集群提交Shell Action工作流。
在CDH集群外的节点向集群提交Spark作业的方式有多种,前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业以及《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》,本篇文章主要介绍使用Oozie的API接口向Kerberos集群提交Spark作业。
在CDH集群外的节点向集群提交Spark作业的方式有多种,前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业,本篇文章我们借助于oozie-client的API接口向非Kerberos集群提交Spark作业。
业务用户在安全环境下使用CDSW服务,为了防止用户的Kerberos的账号和密码泄露问题,需要管理系统统一的为业务用户分发Kerberos账号。本篇文章Fayson主要介绍如何通过CDSW API的方式为不同的业务用户设置Kerberos信息。
用户在使用CDH集群大数据平台时会有需求在自己的统一管理平台上通过API接口能够动态的设置Yarn资源池,Cloudera Manager提供了丰富的API接口对CDH集群的各个服务进行配置等操作,在上一篇文章Fayson介绍了《如何使用curl命令调用CM的API动态配置Yarn资源池》,本篇文章Fayson主要介绍如何使用Java调用CM的API接口动态的配置Yarn资源池并使其生效。
CDSW的管理账号提供了对服务运行状态的一些指标监控(CPU、Memory、GPU、Runs、Lag)等其他监控信息,企业用户为了方便需要将CDSW服务的监控指标对接到自己的监控平台。本篇文章Fayson主要介绍关于CDSW监控指标的API接口。
大家也知道Cloudera Manager提供了丰富的监控指标,部分客户也有自己统一的监控平台,需要将CM上的监控指标集成到统一的监控平台上,因此可以通过提供的API接口获取监控指标,本篇文章Fayson主要介绍如何通过CM API接口获取集群所有节点内存和磁盘使用情况。如下图所示:
在前面的文章《如何打包Livy和Zeppelin的Parcel包》Fayson介绍了使用脚本打包Livy和Zeppelin的Parcel包,本篇文章Fayson主要介绍在CM中使用Livy的Parcel包部署服务及验证。
在使用Cloudera Manager分发Parcel包时一直处于激活状态不变,相关CM日志及CM界面截图如下:
Fayson在前面文章《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》及《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》中对Livy的介绍、安全与非安全集群的部署以及使用。前面的部署方式相对比较麻烦且不便于管理,本篇文章Fayson主要介绍如何使用脚本打包适用于Cloudera的Livy和Zeppelin的Parcel。
在CDH集群外的节点向集群提交MapReduce作业的方式有多种,前面Fayson介绍了《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》和《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业》,本篇文章主要介绍如何在Kerberos集群使用Oozie API接口向集群提交Java作业。
在前面的文章Fayson介绍了在CDSW用户无感知的情况下通过API接口以密码的方式为不同的业务用户绑定Kerberos账号,CDSW的Hadoop Authentication认证方式提供密码和Keytab两种方式。本篇文章Fayson主要介绍通过API接口以keytab的方式为用户绑定Kerberos账号。
在正常使用CDSW的情况下,我们也需要对CDSW服务的监控状况进行监控,CDSW默认的工程存储路径是在服务器的/var/lib/cdsw/current/projects/projects/0的目录下,由于所有的工程存储均是以编号来标识,无法确定每个工程对应的用户,不便于维护管理。本篇文章Fayson主要介绍通过CDSW API的方式获取到用户与工程名和编号的对应关系。
前面Fayson介绍了《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》和《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业》,本篇文章主要介绍如何使用Oozie Client API向非Kerberos环境的CDH集群提交Shell Action工作流。
CDH集群中可以使用Hue访问Hive、Impala、HBase、Solr等,在Hue3.8版本后也提供了Notebook组件(支持R、Scala及python语言),但在CDH中Hue默认是没有启用Spark的Notebook,使用Notebook运行Spark代码则依赖Livy服务。在前面Fayson也介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》,本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成Spark。
本文承接上一篇:hive_学习_01_hive环境搭建(单机) ,主要是记录 hive 整合hbase的流程
在前面的文章Fayson介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》和《如何在Kerberos环境的CDH集群部署Livy》。本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向Kerberos环境的CDH集群提交Spark作业操作。
前两天客户问了一个问题,HDFS上删除的数据还能不能恢复?碰到这个问题第一反应“在执行命令的这个用户下垃圾回收站找到恢复不就的了?”,用户删除数据发现操作失误的时间并不长也没有超过垃圾回收站的清空时间,但是无论怎么找也找不到被删除的数据,这次真的玩儿大了。。。
当我们提交Hive SQL语句到YARN后,有时如果我们想监控某个SQL的执行情况,需要查看具体SQL语句,如果这个SQL语句比较长,无论是通过YARN的8088界面还是YARN的命令都无法看全这个SQL语句。
前面Fayson介绍了《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》,本篇文章主要介绍如何使用Oozie Client API向非Kerberos环境的CDH集群提交Java作业。
在前面的文章Fayson介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》和《如何编译Livy并在非Kerberos环境的CDH集群中安装》,Livy提供了两种类型的API(编程API和RESTful API接口),本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向非Kerberos环境的CDH集群提交Spark作业操作。
Fayson想了想这个问题其实在各个环境是都可能碰到的,于是在这篇文章给大家系统介绍一下。
离线数据分析平台实战——040HDFS&JAVA API(熟悉基础概念跳过) HDFS结构介绍 HDFS是Hadoop提供的基于分布式的文件存储系统。 全称为Hadoop Distributed File System。 主要由NameNode、DataNode两类节点构成。 其中NameNode节点的主要功能是管理系统的元数据,负责管理文件系统的命令空间,记录文件数据块在DataNode节点上的位置和副本信息,协调客户端对文件系统的访问,以及记录命名空间的改动和本身属性的变动。 DataNode节
在CDH集群启用Sentry服务后,需要关闭Hive的启用模拟功能,hive.server2.enable.impersonation设为false,这会导致任何用户在Hive中提交的所有SQL生成的MR任务的用户名称都是hive,而非真实用户。本篇文章主要介绍如何查看集成Sentry后Hive作业的真实用户。
一些用户为了方便管理和审计,需要将CDSW上所有用户启动Session时运行代码输出的信息获取到。那接下来Fayson主要介绍如何通过获取用户每个Session代码运行输出的详细LiveLog日志。
对于未启用HA的NameNode集群,fsimage和edits将存储在活动的NameNode和SecondNameNode上,建议定期备份fsimage和edits。
在前面的文章Fayson介绍了关于《CDSW1.4的新功能》、《Hadoop之上的模型训练 - CDSW1.4新功能模块》、《CDSW1.4的Experiments功能使用》、《Hadoop之上的模型部署 - CDSW1.4新功能模块》及《CDSW1.4的Models功能-创建和部署模型(QuickStart)》。本篇文章Fayson会使用CDSW内置的Python模板项目来引导完成端到端的实操示例,即包含从模型创建,训练到部署或投产。我们使用CDSW的实验模块来开发和训练模型,然后使用模型模块的功能来进行部署。
在集群中访问Kudu的方式有多种,可以通过Impala使用JDBC的方式,也可以通过Kudu提供的Client API方式,参考Fayson前面的文章《如何使用Java API访问CDH的Kudu》和《如何使用Java代码访问Kerberos环境下的Kudu》。在做Spark开发时也有访问Kudu的需求,Kudu API访问是一种方式,这里Fayson使用KuduContext实现对Kudu的读写操作。
CDH集群中有数据管理的组件Cloudera Navigator,本文档主要介绍这个组件的其中一个功能:审计,Cloudera Navigator审计可以从选定的集群服务收集一些事件,用户可以在控制台查看这些审计的日志,可以使用可配置的过滤器进行搜索,快速得到相关的信息,并且可以将这些信息导出为CSV或JSON文件。下面会对审计功能的使用进行一些测试。
之前我的wuuconix.link和wuuconix.xyz域名的SSL证书都是通过 来此加密 - Let’s Encrypt 在线免费申请SSL证书 (osfipin.com) 申请的,它是一个网页端的SSL证书申请工具。
Fayson在前面的文章《如何修改Kerberos的CDH集群的HOSTNAME》介绍了修改集群的HOSTNAME,在文章中并未提到集群启用HA的情况,本篇文章Fayson主要介绍在Kerberos环境下启用HA的CDH集群修改HOSTNAME。
网站转成https是大势所趋。但是在国内,推进的过程显然要比国外慢很多。现阶段如果将自己的网站改成https以后,会碰到这样的尴尬现象:如果在页面上引用了http://的链接或者图片,用户在浏览器上会看到类似该网站是非安全网站的警告,对于网站运营者来说可以说非常冤。由于很多链接是第三方的,没有办法去控制。
Fayson在两年前的文章中介绍过CDH的卸载,参考《0008-如何卸载CDH(附一键卸载github源码)V1.2》,《0609-6.1.0-如何卸载CDH6.1》和《0621-6.2.0-如何卸载CDH6.2》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH,否则并没有现成的一键卸载的脚本供使用。
Fayson在前面的文章中介绍过什么是Spark Thrift,Spark Thrift的缺陷,以及Spark Thrift在CDH5中的使用情况,参考《0643-Spark SQL Thrift简介》。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在开发应用使用Hadoop提供的hadoop-client API来访问HDFS并进行本地调试,本篇文章Fayson主要介绍如何使用Java API访问Kerberos环境下的HDFS并为目录设置配额。 内容概述 1.环境准备 2.Kerberos环境为HDFS目录设置配额 3.
magic-api 是一个基于Java的接口快速开发框架,编写接口将通过magic-api提供的UI界面完成,自动映射为HTTP接口,无需定义Controller、Service、Dao、Mapper、XML、VO等Java对象即可完成常见的HTTP API接口开发
Fayson在两年前的文章中介绍过CDH的卸载,参考《0008-如何卸载CDH(附一键卸载github源码)V1.2.1》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH,否则并没有现成的一键卸载的脚本供使用。
继上一章介绍如何使用R连接Hive与Impala后,Fayson接下来讲讲如何在CDH集群中提交R的Spark作业,Spark自带了R语言的支持,在此就不做介绍,本文章主要讲述如何使用Rstudio提供的sparklyr包,向CDH集群的Yarn提交R的Spark作业。
Fayson在两年前的文章中介绍过CDH的卸载,参考《0008-如何卸载CDH(附一键卸载github源码)V1.2》和《0609-6.1.0-如何卸载CDH6.1》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH,否则并没有现成的一键卸载的脚本供使用。
人啊,上了年纪了,总容易忘记一些事情,比如你一不小心就忘记了CDH集群Hive,Hue和Sentry服务的元数据库密码,对于数据库(MySQL/Oracle/PostgreSQL)管理员来说,可能有自己独特的一些奇技淫巧来找回密码。但对于咱普通人,其实Cloudera Manger提供了一种很优雅的方式让你找回元数据库密码,那就是神奇的Cloudera Manager API。
主要涉及到Python3、MySQL、Flask、Nginx、uwsgi这几个东西。
在前面的文章《6.3.0-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》介绍了将CM内嵌的PostgreSQL迁移至外部PostgreSQL,因为CM内嵌的PostgreSQL数据库不支持直接迁移至MySQL。本篇文章Fayson主要介绍如何将集群使用的外部PostgreSQL迁移至MySQL数据库。
在前面的文章《5.16.2-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》介绍了将CM内嵌的PostgreSQL迁移至外部PostgreSQL,因为CM内嵌的PostgreSQL数据库不支持直接迁移至MySQL。本篇文章Fayson主要介绍如何将集群使用的外部PostgreSQL迁移至MySQL数据库。
在项目中有需求需要将Hive表中的数据存储在HBase中。使用Spark访问Hive表,将读表数据导入到HBase中,写入HBase有两种方式:一种是通过HBase的API接口批量的将数据写入HBase,另一种是通过BulkLoad的方式生成HFile文件然后加载到HBase中,两种方式相比之下第二种效率会更高。本篇文章Fayson主要介绍如何使用Spark读取Hive表数据通过BulkLoad的方式快速的将数据导入到HBase。
本文档将介绍Cloudera Manager与CDH的卸载,并基于CDH使用parcels安装且未配置安全(AD/LDAP, Kerberos, Data Encryption)的集群,以下是本次测试环境,但不是本操作手册的硬限制:
在前面的文章Fayson介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》和《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》,本篇文章主要介绍如何在Kerberos环境的CDH集群中部署Livy服务。
List-Watch是kubernetes的核心机制。组件kubelet、kube-controller-manager、kube-scheduler需要监控各种资源(pod、service等)的变化,当这些对象发生变化时(add、delete、update),kube-apiserver会主动通知这些组件。这个过程类似一个发布-订阅系统。本文章将从代码角度探究一下list-watch的实现方式。
领取专属 10元无门槛券
手把手带您无忧上云