使用Kudu一般都会和impala进行整合,impala与Hive是强依赖关系,需要安装Hive,安装Hive需要安装HDFS等,以上各个技术组件的版本都需要对应匹配,由于Kudu没有直接的安装包,为了方便我们可以选择基于Cloudera Manager进行安装Kudu及相关大数据组件。这里CM集群节点及角色如下:
目录 前言 整体介绍 分步安装介绍 总结 一、前言 周末干了近四十个小时中间只休息了五个小时终于成功安装了ClouderaManager以及分布式集群,其中各种辛酸无以言表,唯有泪两行。总体是安装的很慢,但是其中有很多细节问题,需要记录下来使以后再次安装少走弯路,以及给其他有需要的人提供一点参考。 二、整体介绍 整体上可以借鉴之前我写的一篇博客使用Ambari安装hadoop集群。安装共分三步,第一步安装并配置操作系统(本文采用Ubuntu14.04,其他的可以参考相应安装方法)
Grafana支持Cloudera Manager数据源,因此可以搞一波把大数据集群中各种组件的监控都做到Grafana上。同时,Grafana提供了对Prometheus的完整支持。
Grafana是一个Go语言编写的开源度量分析与可视化套件,经常被用作基础设施的时间序列数据和应用程序分析的可视化。本文主要讲述如何安装Grafana并使用Cloudera Manager datasource 插件。
当数据规模越来越大,存储成本也水涨船高。随着时间推移,数据热度分布往往呈 2⁄8 原则,即 80% 的访问集中在 20% 的数据上。对于那不经常访问的 80% 数据来说,使用多个 SSD 来存储真是巨大的浪费,需要将冷数据迁移到其他存储成本更低的系统里。这时 JuiceFS 成了理想之选,成本下降 20 倍,同时又提供跟 HDFS 一样高性能的元数据能力(避免Metastore 遍历元数据时雪崩),大量扫描冷数据时也有很高的吞吐量。如果 80% 的数据转移到 JuiceFS 上来,整体成本可节省 90%。如果再给 JuiceFS 提供 适当的空间做缓存,还可以完整替换 HDFS (20% 的热数据通过 JuiceFS 管理的缓存盘来服务,也可以有极高的性能)。
本文档将介绍Cloudera Manager与CDH的卸载,并基于CDH使用parcels安装且未配置安全(AD/LDAP, Kerberos, Data Encryption)的集群,以下是本次测试环境,但不是本操作手册的硬限制:
传输层安全性(TLS)在ClouderaManager服务器和代理之间的通信中提供加密和身份验证。 加密可防止通信侦听,并且身份验证有助于防止恶意服务器或代理在群集中引起问题。Cloudera Manager支持三种级别的TLS安全性,三种必须逐级配置。
通过安装 K8S,了解 K8S 的核心概念:控制面、CRI、CNI、Deployment、Service、sandbox 等,本文不仅包含安装流程,而且包含丰富的 Troubeshooting 实战,以及解释这背后发生了什么。
安装Server和Agent 一、安装Server服务 yum install -y oracle-j2sdk1.8-1.8.0+update181-1.x86_64 yum install -y enterprise-debuginfo-6.2.1-1426065.el7.x86_64 yum install -y cloudera-manager-server-6.2.1-1426065.el7.x86_64 yum install -y cloudera-manager-server-db-2-6.2
目录 前言 若干坑 总结 一、前言 近期干了一件事情,将geotrellis程序移植到CDH中(关于CDH,可以参考安装ClouderaManager以及使用ClouderaManager安装分布式集群的若干细节),本以为这是件很简单的事情,没想到跟安装CDH一样却碰到了许多的坑,很多事情真的就是这样,我们不去亲自实践觉得都是简单的,当我们真正甩开膀子去干的时候却发现会遇到各种各样的问题,但是当我们将这些一个个解决的时候,你收获的将不仅是美好的结果,更是很多通过学习无法得到的东西,这应该就是古
Grafana 是一款采用 go 语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具,目前已经支持绝大部分常用的时序数据库。通过自带的控件或者第三方可以做出非常炫酷的界面,也能非常直观的展示各项监控指标,本文主要讲述如何安装Grafana并使用Cloudera Manager datasource 插件
今天从新复习下hive,同样是Clouderamanager 的hive的配置页面,进入hive的配置选项
本文档描述CENTOS7.2操作系统部署CDH企业版的过程。Cloudera企业级数据中心的安装主要分为4个步骤:
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 Fayson在2018年的1月26日介绍了《CDH5.14和CM5.14的新功能》,今天6月15日,Cloudera正式发布了CDH5.15。从5.14到5.15,差不多等待了4个半月的时间,本次更新比以往晚了快2个月的时间。当然Cloudera在中间发布了CDH6的Beta版,参考《Cloudera En
CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:
在前面Fayson介绍了《如何实现CDH元数据库MySQL的主主互备》和《如何实现CDH元数据库MySQL的高可用》,实现了MySQL的高可用后访问地址有了变化,本篇文章主要介绍如何修改CM及CDH集群元数据库配置。
如果CDH集群中的节点上有挂载NFS到某个目录,当NFS服务异常导致该目录不可用时,Cloudera Management Service的Host Monitor服务可能会抛出以下错误:
目前市场上常见的企业级大数据平台型的产品主流的有两个,一个是Cloudera公司推出的CDH,一个是Hortonworks公司推出的一套HDP,其中HDP是以开源的Ambari作为一个管理监控工具,CDH对应的是Cloudera Manager,国内也有像星环这种公司专门做大数据平台。我们公司最初是使用CDH的环境,近日领导找到我让我基于Ambari做一个公司自己的数据平台产品。最初接到这个任务我是拒绝的,因为已经有了很完善很成熟的数据平台产品,小公司做这个东西在我看来是浪费人力物力且起步太晚。后来想想如果公司如果有自己数据平台的产品后续在客户面前也能证明自己的技术实力且我个人也能从源码级别更深入的学习了解大数据生态圈的各个组件。
北京时间2018年12月19日,Cloudera正式发布Cloudera Enterprise 6.1.0,昨天Fayson的文章介绍了《0487-CDH6.1的新功能》,因为本次更新内容较多,特意将CDH和Cloudera Manager的更新分开两篇文章来介绍,本文Fayson主要介绍Cloudera Manager6.1的新功能。
在前面Fayson介绍了《如何使用Shibboleth搭建IDP服务并集成OpenLDAP》,通过Shibboleth的IDP服务提供SAML认证服务,本篇文章主要介绍如何使用SAML配置Cloudera Manager的身份验证。下图为CM集成SAML认证流程:
这一步可以参考我之前写的文章《如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID》、《如何为Hadoop集群服务器绑定双万兆网卡》
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量,真实要部署的哪些服务,硬件资源,配置,以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时,CM会根据主机的可用资源,自动的分配角色到各台主机,边
准备工作 1, 配置hostname vi /etc/sysconfig/network 修改hostname: NETWORKING=yes HOSTNAME=master 通过 service network restart 重启网络服务生效。 vi /etc/hosts ,修改ip与主机名的对应关系
Impala是cloudera提供的一款高效率的sql查询工具,使用内存进行计算提供实时的SQL查询,impala强依赖于Hive 的MetaStore,直接使用hive的元数据,意味着impala元数据都存储在hive的MetaStore当中,并且impala兼容hive的绝大多数sql语法,具有实时,批处理,多并发等优点。
swappiness是Linux的一个内核参数,控制系统在使用swap虚拟内存时,内存使用的相对权重。
前面Fayson也介绍过《如何在集群外节点跨网段向HDFS写数据》和《如何使用Java代码访问HDFS》。在非Kerberos的环境中,使用HttpFS是不需要输入用户密码的,为了集群数据安全考虑可以考虑配置HttpFS的SSL。本篇文章主要介绍如何为HttpFS服务配置SSL。但Fayson依旧建议在开启HttpFS服务的集群里必须开启Kerberos。
CDH(Cloudera's Distribution, including Apache Hadoop)是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建提供了Hadoop的核心可扩展存储、分布式计算 基于Web的用户界面。 简单来说CDH就是把我们知道的大数据家族组件进行了一个组合,然后提供了一个WEB-UI的页面,使原来的搭建操作变得非常简单。CDH架构图如下:
Fayson在之前的文章中介绍过《CDH网络要求(Lenovo参考架构)》,《如何为Hadoop集群选择正确的硬件》和《CDH安装前置准备》,而我们在搭建Hadoop集群时,还一件很重要的事就是如何给集群分配角色。
SAS提供了从基本统计数的计算到各种试验设计的方差分析,相关回归分析以及多变数分析的多种统计分析过程,几乎囊括了所有最新分析方法,其分析技术先进,可靠。分析方法的实现通过过程调用完成。许多过程同时提供了多种算法和选项。Cloudera与SAS是相互认证的合作伙伴,在各自的官网都能找到集成安装的专业文档,也能得到专业的支持。本文主要是介绍如何安装SAS,并连接配置到Hive和Impala。
本文档主要描述离线环境下,CentOS6.5操作系统部署CDH5.12.1企业版的过程。本安装文档主要分为4个步骤:
1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
CDP数据中心版7.0.3是Cloudera与Hortonworks合并后,第一个融合CDH和HDP所有组件的on-premise版本,CDP Data Center主要由Cloudera Runtime构成,Cloudera Runtime由超过35个开源项目组成,当然CDP Data Center还包括其它功能如管理功能Cloudera Manager,Key Management,专业支持等.
ansible是一种自动化运维工具,基于paramiko开发的,并且基于模块化工作,Ansible是一种集成IT系统的配置管理、应用部署、执行特定任务的开源平台,它是基于python语言,由Paramiko和PyYAML两个关键模块构建。集合了众多运维工具的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能.ansible是基于模块工作的,本身没有批量部署的能力.真正具有批量部署的是ansible所运行的模块,ansible只是提供一种框架.ansible不需要在远程主机上安装client/agents,因为它们是基于ssh来和远程主机通讯的.
在前面的文章中,Fayson介绍了《如何在Redhat7.3安装CDH5.14》,这里我们基于这个环境开始安装MIT Kerberos。前面Fayson也介绍过《如何在CDH集群启用Kerberos》,当时的环境是Redhat6的,大家也可以看看Redhat6和7安装Kerberos有什么区别。
得出结论, 如果计算 260G 的数据, 可能和计算 60G 的数据, 所需要的内存一样, Spark 会逐个取数据, 逐个计算, 计算完成后抛弃, 再取下一条
腾讯云数据仓库PostgreSql TDSQL,PingCAP的TiDB,阿里的OceanBase,华为云DWS,都是HTAP的业内常用数仓,可以一站式解决需求。
本文档讲述如何升级Cloudera Manager和CDH,通过本文档,您将学习到以下知识:
北京时间2018年12月19日,Cloudera正式发布Cloudera Enterprise 6.1.0,上次发布CDH6.0是8月30日,差不多过去了3个多月的时间,参考Fayson之前的文章《Cloudera Enterprise 6正式发布》。从CDH6.0到CDH6.1是一次minor version的更新,但更新内容较多,在开始接下来的细化功能讨论前,我们先看看几项重点更新的内容:
此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~
领取专属 10元无门槛券
手把手带您无忧上云