cat /var/log/cloudera-scm-server/cloudera-scm-server.log
在使用CDH企业版时,当License过期后,在CM顶部总是会有一个红色的banner条显示License已过期。我们有时会觉得它影响美观,想要考虑将CDH从企业版直接降级为免费版。
准备工作 1, 配置hostname vi /etc/sysconfig/network 修改hostname: NETWORKING=yes HOSTNAME=master 通过 service network restart 重启网络服务生效。 vi /etc/hosts ,修改ip与主机名的对应关系
Cloudera Manager Cloudera Manager 分为两个部分:CDH和CM。 CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera公司发布的Hadoop版本,封装了Apache Hadoop,提供Hadoop所有的服务,包括HDFS,YARN,MapReduce以及各种相关的components:HBase, Hive, ZooKeeper,Kafka等。 CM是cloudera manager的简称,是CDH的管理平台,主要包括CM s
Cloudera Manager 分为两个部分:CDH和CM。
https://www.cloudera.com/documentation/enterprise/6/6.0.html
借助ansible简化了CDH6部署工作的大部分内容,也降低了手工操作失误的概率,今天实战的内容,是在一台安装了ansible的电脑上(苹果或Linux操作系统)运行ansible脚本,远程操作一台CentOS服务器,在上面部署CDH6,并操作验证本次部署是否成功。
Centos 7+CDH5.7.2全部署流程 一、前期准备 1、虚拟机配置 这个配置是我在网上看到的,我就借用了这个配置: 主节点:8g内存、硬盘80g 从节点:2g内存、硬盘80g 安装系统的时候,我建议将IP和主机名都给配置好,这样就省的在系统中进行配置了,当然下面也有在系统中配置的方法。 所以如果你要使用虚拟机来完成这个配置的话,那么,你的主机的配置内存就不能低于16G了。而且还要找一个盘符较大的磁盘空间,不然到后面操作CDH的时候会很尴尬,我第一次就被卡在了硬
本文主要讲述重庆某项目生产集群扩容项目问题总结及复盘。其中部分问题之前有写过相关文档,可参考我之前写的文章《CDH集群安装YARN无法正常启动及解决办法》、《HDFS运行Balancer失败及问题解决办法》、《如何为CDH集群配置机架感知》
在生产环境CDH集群中会遇到元数据库的迁移,迁移后数据库的IP地址发生变化或是元数据库做主备,在主节点挂掉后,我们需要将数据库CDH集群中的元数据库地址指向新的IP或备用元数据库。本篇文章Fayson主要介绍如何修改CDH集群元数据库IP地址。
安装jdk:必须把jdk放在/usr/java/目录下,不然启动cloudera-scm-server会报错
在前面的文章中,Fayson介绍了《如何在Redhat7.6中安装CDP DC7.0.3》和《如何在CDP DC7.0.3集群部署Flink1.9.1》,基于前面的集群环境,本篇文章Fayson主要介绍如何在CDP DC7.0.3集群安装Ranger。
官方文档:https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/installation_reqts.html
工欲善其事必先利其器,在经过大量的理论学习以后,需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境,在家也可以随意的练习。而自学大数据的同学,也可以进行本地练习,大数据是一门偏实践的学科,在找工作之前进行一些实践操作,也更利于对大数据知识的理解。
在CDP7.1.1的安装过程中,添加SMM组件后,配置完数据库信息,启动服务过程中,提示启动Streams Messaging Manager Rest Admin Server角色失败。如下图:
Cloudera Manager 安装 CDH5.x 心得 废话不多说,先展示下这几天捣鼓的成果 Cloudera Manager 管理配置界面 Hbase 管理界面及Hbase Web UI
本文描述了一次CDH集群中,Hive锁表导致集群元数据MySQL的Hive MetaStore锁表,从而引起CM服务中断并且无法重启的异常分析。
oozie-site.xml 属性:oozie.service.JPAService.jdbc.driver 属性值:com.mysql.jdbc.Driver 解释:JDBC的驱动
Oozie 英文翻译为:驯象人。一个基于工作流引擎的开源框架,由 Cloudera 公司贡献给 Apache,提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。
在使用CDH集群的过程中,会涉及到修改集群DataNode的HOSTNAME,在修改HOSTSNAME的时候需要注意什么,如何让新修改HOSTSNAME的CDH集群正常工作?本篇文章主要介绍如何修改CDH集群DataNode节点的HOSTNAME。后续Fayson会继续介绍如何修改Cloudera Manager的hostname/ip,KDC的hostname/ip,mysql元数据库的hostname/ip等。本文的主要流程如下:
在前面Fayson介绍了《如何实现CDH元数据库MySQL的主主互备》和《如何实现CDH元数据库MySQL的高可用》,实现了MySQL的高可用后访问地址有了变化,本篇文章主要介绍如何修改CM及CDH集群元数据库配置。
此方案为暂定方案,有可能会变更。如果直接使用CDH会更加方便,但是如果进行自行配置,需要做实验。
注意,配置是根据之前安装Linux时生成的以太网配置修改的,这里将IP地址改成了 192.168.232.129
这里我们假定一个场景,你需要迁移CDH5.12到CDH6.2,CDH5.12和CDH6.2分别是两个不同的集群,我们的工作主要是HDFS数据和各种元数据从CDH5.12迁移到CDH6.2,本文不讨论HDFS数据的迁移也不讨论其他元数据的迁移比如CM或Sentry,而只关注Hive元数据的迁移。这里的问题主要是CDH5.12的Hive为1.1,而CDH6.2中Hive已经是2.1.1,Hive的大版本更新导致保存在MySQL的schema结构都完全发生了变化,所以我们在将CDH5.12的MySQL数据导入到CDH6.2的MySQL后,需要更新Hive元数据的schema。首先Fayson会搭建2个集群包括CDH5.12和CDH6.2,为了真实,我们在接下来的模拟过程中,创建的Hive表包含分区,视图和UDF,好方便验证是否迁移到CDH6.2都能正常运行。具体如何迁移Fayson会在接下来的文章进行详细描述。
SELinux是Security Enhance Linux的缩写,是NASA开发的一套严格的资源权限管理系统,由于使用起来比较复杂,所以一般选择关闭
下载地址:http://archive.cloudera.com/cm5/repo-as-tarball/5.7.0/cm5.7.0-centos7.tar.gz
Cloudera在2019年9月18日正式对外宣布发布Cloudera Stream Processing(CSP)2.0,参考《Cloudera Streams Management正式GA》。Cloudera Stream Processing (CSP)提供了高级消息传递,流处理和流分析功能,这些功能由Apache Kafka作为核心流处理引擎提供支持。它同时为Kafka添加了两个流管理功能,Kafka监控和Kafka数据复制。Streams Messaging Manager(SMM)为Kafka集群提供了一个监控仪表板。Streams Replication Manager(SRM)为企业提供了实现跨集群Kafka topic复制的能力。
本篇文章主要介绍如何在CDP7.1.6集群中配置SMM(Streams Messaging Manager)服务。它为Kafka集群提供了一个监控仪表板。在CDH6中安装该服务需要部署parcel包和安装节点软件包管理器,而在CDP7中则不需要上述操作,能够直接在CM界面中进行添加服务操作。
首先进入到Hue的conf目录下 /export/servers/hue-3.9.0-cdh5.14.0/desktop/conf
Kettle可以与Hadoop协同工作。让我们从简单的开始,本文介绍如何配置Kettle访问Hadoop集群(HDFS、MapReduce、Zookeeper、Oozie等),以及Hive、Impala等数据库组件。所有操作都以操作系统的root用户执行。
当对Hive的VIEW执行SHOW CREATE TABLE时,结果输出只有部分,会被截断,这个表现在Hue,Beeline以及Hive CLI中都会存在,如下所示。
1.Cloudera升级概述 CDP作为一个软件系统,安装成功后主要包含三部分:Cloudera Manager Server,Cloudera Manager Agent以及CDH Parcel,所以CDP的升级也主要是包含这三部分的升级。一般来说是先通过操作系统的Package升级Cloudera Manager,然后通过Parcel升级CDH即可以完成整个集群的升级。CDH和Cloudera Manager不用同时升级,但是需要保证Cloudera Manager和CDH版本的兼容,具体的版本兼容情况
之前的文章中我们提到了Hive是Hadoop生态系统中的重要的成员之一,允许用户使用类似SQL的方式,很方便地进行离线数据的统计分析。本节我们就在Hadoop集群的基础上进行Hive的安装与配置。
Fayson在之前的文章中介绍过《如何在Redhat7.4安装CDH6.0.0_beta1》,但当安装CDH并分发Parcel时,浏览器端会报错Parcel的hash校验失败,具体错误如下图所示。
1.文档编写目的 本文档Fayson主要描述如何在CentOS7.9安装CDP Base7.1.7。CDP Base7与CDH5/6的安装步骤一致,主要包括以下四部分: 1.安全前置准备,包括安装操作系统、关闭防火墙、同步服务器时钟等; 2.外部数据库如MySQL安装 3.安装Cloudera Manager; 4.安装CDH集群; 测试环境 1.CM7.4.4+CDH7.1.7 2.CentOS7.9 3.OpenJDK1.8 4.MariaDB-5.5.64 5.root用户安装 前置准备 2.1 ho
2. 环境配置 2.1 基本配置(本配置在CM机器上操作,其他机器秩序操作 前三步) (1) 修改network (修改计算机标示名)
4.配置本地yum源 4.1.上传安装包解压 使用sftp的方式把安装包大文件上传到服务器/cloudera_data目录下。
hive安装包scp在所有需要安装impala的节点上,因为impala需要引用hive的依赖包。
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。ClickHouse最初是一款名为Yandex.Metrica的产品,主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse,简称ClickHouse。
Zeppelin是一个基于Web的笔记本,可以直接在浏览器中编写代码,对数据进行查询分析并生成报表或图表,做出数据驱动的、交互、协作的文档,并且可以共享笔记。Zeppelin提供了内置的Apache Spark集成,提供的功能有:
本文是《CDH5部署三部曲》的终篇,前面两章完成了CDH5集群的部署和启动,本章将实战中遇到的问题做个总结,如果碰巧您也遇到过这些问题,希望本文能给您一些参考;
大家都知道,Apache Hadoop的配置很繁琐,而且很零散,为此Cloudera公司提供了Clouder Manager工具,而且还封装了Apache Hadoop,flume,spark,hive,hbase等大数据产品形成自己特色的CDH产品,再使用CM进行安装,很大程度上方便了集群的搭建,并提供了集群的监控功能。
CDH(Cloudera's Distribution, including Apache Hadoop)是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建提供了Hadoop的核心可扩展存储、分布式计算 基于Web的用户界面。 简单来说CDH就是把我们知道的大数据家族组件进行了一个组合,然后提供了一个WEB-UI的页面,使原来的搭建操作变得非常简单。CDH架构图如下:
“Apache Hadoop存在版本管理混乱、部署过程繁琐、升级过程复杂、兼容性差、安全性低等问题,CDH是Hadoop商业发行版之一,本文介绍基于Cloudera Manager的Cloudera Hadoop 6.1.0大数据平台搭建,简单易上手 ”
日常的大数据使用中经常是在服务器命名行中进行操作,可视化功能仅仅依靠着各个组件自带的网页进行,那么有没有一个可以结合大家能在一个网页上的管理工具呢?答案是肯定的,今天就和大家一起来探索大数据管理工具H
SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS与SSL在传输层对网络连接进行加密。
2.将下载的csd文件拷贝至/opt/cloudera/csd目录下,并重启cloudera-scm-server服务
三、使用Oozie定期自动执行ETL 1. Oozie简介 (1)Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp,及其Java程序和shell脚本等特定的系统作业。 第一版Oozie是一个基于工作流引擎的服务器,通过执行Hadoop Map/Reduce和Pig作业的动作运行工作流作业。第二版Oozie是一个基于协调器引擎的服务器,按时间和数据触发工作流执行。它可以基于时间(如每小时执行一次)或数据可用性(如等待输入数据完成后再执行)连续运行工作流。第三版Oozie是一个基于Bundle引擎的服务器。它提供更高级别的抽象,批量处理一系列协调器应用。用户可以在bundle级别启动、停止、挂起、继续、重做协调器作业,这样可以更好地简化操作控制。 (2)为什么需要Oozie
领取专属 10元无门槛券
手把手带您无忧上云