获得 shell 内置命令的帮助信息 一部分基础功能的系统命令是直接内嵌在 shell 中的,系统加载启动之后会随着 shell 一起加载,常驻系统内存中。这部分命令被称为“内置(built-in)命令”;相应的其它命令 被称为“外部命令”。 基本语法 help 命令(功能描述:获得 shell 内置命令的帮助信息)
账户创建后,默认是没有设置密码的,只有设置密码后,才可以登录系统。为了安全,在为用户创建密码的时候,请尽量设置复杂些 。
-ge 大于等于(greater equal) -ne 不等于(Not equal)
每行列出的信息依次是: 文件类型与权限 链接数 文件属主 文件属组 文件大小用 byte
1、脚本格式 脚本以#!/bin/bash开头(表示指定解析器) 2、第一个Shell脚本:helloworld (1)需求:创建一个Shell脚本,输出helloworld (2)案例实操:
注意:第一种执行方法,本质是bash解析器帮你执行脚本,所以脚本本身不需要执行权限。第二种执行方法,本质是脚本需要自己执行,所以需要执行权限。
1.基本语法 (1)定义变量:变量=值 (2)撤销变量:unset 变量 (3)声明静态变量:readonly变量,注意:不能unset 2.变量定义规则 (1)变量名称可以由字母、数字和下划线组成,但是不能以数字开头,环境变量名建议大写。 (2)等号两侧不能有空格 (3)在bash中,变量默认类型都是字符串类型,无法直接进行数值运算。 (4)变量的值如果有空格,需要使用双引号或单引号括起来。 3.案例实操 (1)定义变量A
在windows下,我们接触最多的压缩文件是.rar格式的;但在Linux下,不能使用这种格式,它有自己独特的压缩工具。但.zip格式在windows和Linux下都能使用。使用压缩文件,不仅能节省磁盘空间,而且传输时还能节省网络宽带。
最近有点小忙,心细的朋友们可能已经看出菌已经好久没更新博客了。但是不慌,该掌握的知识,咋们也不能落下。这一期博客,我也不搞那些花里胡哨了,专心写一篇总结Shell精华的博客,也算是为像Alice一样的“小小白”谋点福利吧…φ(๑˃∀˂๑)♪
注意事项: (1)[ 条件判断式 ],中括号和条件判断式之间必须有空格 (2)if后要有空格 2.案例实操 (1)输入一个数字,如果是1,则输出banzhang zhen shuai,如果是2,则输出cls zhen mei,如果是其它,什么也不输出。
选项: suffix为后缀,如果suffix被指定了,basename会将pathname或string中的suffix去掉。 2.案例实操 (1)截取该/home/atguigu/banzhang.txt路径的文件名称
cut的工作就是“剪”,具体的说就是在文件中负责剪切数据用的。cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出。
1.脚本格式 脚本以#!/bin/bash开头(指定解析器) 2.第一个Shell脚本:helloworld (1)需求:创建一个Shell脚本,输出helloworld (2)案例实操:
在已启用HA的CDH集群中,误删Standby Namenode服务,导致集群异常,无法再次通过CM启用HA。异常如下
在前面的文章Fayson介绍了《如何使用java代码通过JDBC连接Hive(附github源码)》、《如何使用java代码通过JDBC连接Impala(附Github源码)》和《如何使用Java访问集成OpenLDAP并启用Sentry的Impala和Hive》,关于Hive和Impala如何启用Sentry可以参考Fayson前面的文章《如何在CDH启用Kerberos的情况下安装及使用Sentry(一)》,《如何在CDH启用Kerberos的情况下安装及使用Sentry(二)》和《如何在CDH未启用认证的情况下安装及使用Sentry》,在集群只启用了Sentry的情况下如何访问?本篇文章主要介绍在集群只启用了Sentry后使用Java通过JDBC访问的区别以及在beeline命令行如何访问。
数据网络是用于数据访问的节点之间的私有集群数据互连,比如在集群内的节点之间移动数据,或者将数据导入到CDH集群。CDH集群通常会连接到企业内部的数据网络。
Cloudera Manager提供了许多功能,用于监控集群组件(主机,服务)的运行状况和性能,以及集群上运行的作业的性能和资源情况。具体的包括以下项目:
Fayson在上一篇文章中介绍了如何在CDH6.2中安装CDSW1.5,参考《0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5》,本文主要介绍如何卸载CDSW1.5。
Hadoop生态圈的Spark(https://www.cloudera.com/products/open-source/apache-hadoop/apache-spark.html),一夜之间成为默认的数据处理引擎,并被作为高级分析的标准。但是它依旧有许多东西需要完善,特别是在大规模/多租户,开发与投产,以及可扩展性方面。
前面会有如果是一个 “ - ”表示的是是一个普通文件,但是前面是 d 是什么意思呢,这就是本篇文 章要介绍的,文件的属性
在前面的文章Fayson介绍了《如何使用java代码通过JDBC连接Hive(附github源码)》和《如何使用java代码通过JDBC连接Impala(附Github源码)》,本篇文章主要介绍在集群集成了OpenLDAP和启用了Sentry后使用Java通过JDBC访问的区别以及在beeline命令行如何访问。
在使用Hue时通过SQL查询Hive和Impala数据或在浏览文件系统时可以通过Hue提供的下载功能下载数据文件,这样会导致任意用户都可以随意下载数据,有数据泄露的风险。通过Sentry集成可以控制用户访问和查看有限的数据或表,但是如何禁止用户通过Hue下载数据呢?
1.基本语法 (1)“((运算式))”或“((运算式))”或“((运算式))”或“[运算式]” (2)expr + , - , *, /, % 加,减,乘,除,取余 注意:expr运算符间要有空格 2.案例实操: (1)计算3+2的值
(2)归档文件 把/user/atguigu/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/atguigu/output路径下。
注意这个操作,首先要确定ntpdate命令是否已经安装过了,大部分最新已经安装过了
看到这张图,大家应该能看出来什么。受限于微信文章PC查看的各种不友好,主要的一点就是图片不清晰了,很多网友都问过是否有网页版的文章。这回如您所愿,咱们推出了网页版。这回大家满意了吧。
在使用Cloudera Manager分发Parcel包时一直处于激活状态不变,相关CM日志及CM界面截图如下:
如果你忘记Cloudera Manager的admin用户密码,需要重置。那么本文刚好能帮到你。
前面Fayson也介绍过《如何为HttpFS服务配置SSL》,在为HttpFS启用了SSL后,Hue中如何使用?本篇文章主要介绍如何在Hue中配置已启用SSL的HttpFS服务。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢
如果你忘记了Hue用户的密码,同时也不知道MySQL管理员的用户和密码,但仍需要重置密码,那么本文档可以帮助你重置Hue任何用户密码。
Spark Streaming是在2013年被添加到Apache Spark中的,作为核心Spark API的扩展它允许用户实时地处理来自于Kafka、Flume等多种源的实时数据。这种对不同数据的统一处理能力就是Spark Streaming会被大家迅速采用的关键原因之一。
Cloudera Navigator也是CDH企业版的工具之一,定位为一个数据管理工具。Hadoop大数据平台拥有存储与分析任何种类和规模数据的能力,并且将其开放给更多用户和分析工具。 但是,这同时也带来数据管理上的挑战:大量的业务用户想自助访问可发掘数据;管理员需要知道数据是怎么被用来优化分析性能的;安全团队需要看见数据的访问方式以及它们是怎么满足合规性的。一个大数据平台必须有能力在整个企业内解决数据管理以及合规性需求,但同时不能牺牲大数据本身的灵活性和优势。所以我们需要数据管理工具Navigator。
教程地址:http://www.showmeai.tech/tutorials/84
参数 变量:指定读取值的变量名 2.案例实操 (1)提示7秒内,读取控制台输入的名称
做Hadoop应用开发的过程中,用户会有这样的需求,在同一个Java应用中同时访问安全和非安装的CDH集群。同一个Java应用即同一个进程同一个JVM,由于一些全局的变量可能会导致无法同时访问安全和非安全的集群。本篇文章Fayson介绍下如何使用Java代码同时访问安全和非安全的CDH集群。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH集群中安装Hive2.3.3》,本篇文章主要介绍如何在Hue中集成Hive2.3.3服务。 内容概述 1.环境准备 2.配置Hue集成Hive2 3.Hue验证 测试环境 1.CM和CDH版本为5.14.3 2.Hive的版本为2.3
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.总结 ---- 一些查询请求或者工作负载会导致Hive Metastore(HMS)的死锁。 2.症状 ---- 在受影响的版本中,某些工作负载可能导致Hive Metastore(HMS)死锁。内部的自动机制可以从这种死锁中恢复。但是,在高并发且写入较重的工作负载中,HMS从死锁中恢复比查询作业的执行时
在使用Sentry赋予server1所有权限给hive以外的用户时(如:fayson用户默认用户组也是fayson),通过Hue使用fayson用户登录,Sentry赋予fayson用户的权限是能正常工作,但是HDFS文件的ACL权限未同步导致不能对相应表的数据目录进行操作。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 前面Fayson介绍过《如何在CDSW上创建Git工程》,主要包括Git与CDSW的集成安装配置。如果企业内部搭建私有的Git服务,在CDSW使用Git创建工程后,代码修改成功后需要提交到Git服务器。本文Fayson主要介绍如何在CDSW中使用git命令提交代码到服务。 测试环境
在前面的文章Fayson介绍了《如何使用Java连接Kerberos的HBase》,虽然非Kerberos环境下访问HBase比较简单,本篇文章Fayson还是主要介绍使用Java访问非Kerberos环境的HBase。
写在前面: 博主是一名大数据行业的蒟蒻小白,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/ 尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的
使用追加的方式将test_user表中id大于3并且小于5的数据插入到my_table表中,执行结果如下:
在测试环境下给fayson赋予了test库的CREATE/REFRESH/SELECT权限
盼星星盼月亮,C6终于来了,虽然是Beta,但没关系,至少可以玩起来了,对吧,哈哈。Cloudera在北京时间5月16日的半夜,在其社区(community.cloudera.com)对外宣布发布Cloudera Enterprise 6,Beta。咱们在5月没有等到CDH5.15,等到C6 beta也是不错的嘛。 C6相较于C5是一次各个组件的大版本升级,可以说是翻天覆地的,简单说你以前期待的Hadoop3的一些激动人心的新功能,C6统统都有了。这次更新是一次革命性的,举世无双的,前无古人后无来者的,是对
前面Fayson介绍了《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》,本篇文章主要介绍如何使用Oozie Client API向非Kerberos环境的CDH集群提交Java作业。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在部署CDH集群时由于OS的操作系统指定的时区是UTC,这时如果我们不想修改集群操作系统的时区,在查询数据时如何强制Hive使用指定时区,接下来的文章就介绍如何为Hive指定时区。 内容概述 1.测试前环境查看 2.指定Hive时区 3.验证时区是否生效 测试环境 1.CM5.14
Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。 在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走mapreduce。
在HDFS上有许多Hive Staging目录,占用了大量的空间,有些目录占用的空间甚至比原始表还大,如下截图显示:
领取专属 10元无门槛券
手把手带您无忧上云