Hadoop,zookeeper,HBase,Spark集群环境搭建【面试+工作】
JDK:OpenJDK1.8.0 (强力建议不要使用 Oracle 公司的 Linux 版本的 JDK)
jps位于jdk的bin目录下,其作用是显示当前系统的java进程情况,及其id号。 jps相当于Solaris进程工具ps。不象”pgrep java”或”ps -ef grep java”,jps并不使用应用程序名来查找JVM实例。因此,它查找所有的Java应用程序,包括即使没有使用java执行体的那种(例如,定制的启动 器)。另外,jps仅查找当前用户的Java进程,而不是当前系统中的所有进程。
在linux环境下显示一个进程的信息大家可能一直都在使用ps命令,比如用以下命令来显示当前系统执行的java进程:
在常见的面试的过程中,面试官都会问你一下常用的的linux命令,如果一上的来就说一些 cd.. , cp ls , vi, mkdir, rm -rf 什么的是没错的但是这些常用的命令说出去就显示不出你的优势,但凡是用过linux的都会这几个常用的命令,所以要突出自己的优势可以了解一些更深入的linux命令。
jps(JVM Process Status Tool)是JDK中的一个小工具,它的功能和UNIX的ps命令类似:可以列出正在运行的虚拟机进程,并显示虚拟机执行主类(Main Class,main()函数所在的类)名称以及这些进程的本地虚拟机唯一ID(LVMID,Local Virtual Machine Identifier),LVMID和操作系统的进程ID是一致的,当同时启动多个虚拟机进程,无法根据进程名称进行定位时,就可以使用jps命令显示主类的功能来区分。
因为在之前的博客在Linux中部署集群(零基础速学!)中,上述的准备操作均已详细描述,这里对于准备工作的内容就不做过多讲解。接下来正式开始进行集群环境的搭建
---- 软件准备 一台Linux虚拟机 我用的CentOS-6.6的一个虚拟机,主机名为repo 参考在Windows中安装一台Linux虚拟机 spark安装包 下载地址:https://mirrors.aliyun.com/apache/spark/ 我用的spark-2.2.0-bin-hadoop2.7.tgz 要根据自己机器中的hadoop版本选择对应的spark版本 ---- (1) 把安装包上传到服务器并解压 [root@repo soft]# tar -zxvf spark-2
jps类似linux的ps命令,不同的是ps是用来显示进程,而jps只显示java进程,准确的说是当前用户已启动的部分java进程信息,信息包括进程号和简短的进程command。
前面文章我们提到,如果数据量比较大的话,我们需要对数据进行分库分表,分完之后,原本存在一个数据库中的数据,现在就存在多个数据库中了,就像下面这样:
前言:在网上有好多说是以 root 身份 vi /etc/profile,然后在下面加一行 export PATH="usr/java/jdk160_05/bin:$PATH"(其中 jdk160_05 是你的安装目录,依你自己的安装情况所决定),然后 source /etc/profile 即可解决。
系统: Ubuntu 14.04 64bit Hadoop版本: Hadoop 2.5.2 (stable) JDK版本: JDK 1.6 虚拟机及Ubuntu安装 1. 下载并安装 VMware w
本文为大数据基础系列 4:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析,以 ubuntu-18.04.3、hadoop-3.2.1-tar.gz 为例。本系列的其他文章可以移步本人大数据专栏进行查看。对于本篇文章,我个人是很有自信的,一篇文章掌握一门课程核心技术点。
Linux下 安装好了jdk,输入jps时,系统提示“-bash: jps: command not found”。
输出java版本 虽然默认已经将Java的路径配置到了系统环境变量中,但由于后续需要使用JAVA_HOME,我们最好将JAVA_HOME显式写入到系统的配置文件中。参考链接:https://segmentfault.com/a/1190000007950960
大数据基础学习四:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤、易错点分析及需要注意的问题(以 ubuntu-18.04.3、hadoop-3.2.1-tar.gz 为例),本系列的其他文章可以移步本人大数据专栏进行查看。对于本篇文章,我个人是很有自信的,一篇文章掌握一门课程核心技术点。
Hadoop搭建流程网上有很多,以下是我在搭建Hadoop伪分布式环境是遇到的一些比较菜鸟的问题。
在 安装和配置Hadoop(单节点) 这篇文章中,已经进行了Hadoop单机伪集群模式的部署。生产环境中,Hadoop都是以集群方式进行安装和部署的,否则,就不需要使用Hadoop了,分布式存储和分布式运算是Hadoop提供的核心功能。这篇文章将在单机安装的基础上,进行3个节点Hadoop集群的安装,因此如果你还没有单机安装过Hadoop,那么请先查看一下单机安装的这篇文章。
“ 给一个系统定位问题的时候,知识、经验是关键基础,数据是依据,工具是运用知识处理数据的手段。这里的数据包括:运行日志、异常堆栈、GC日志、线程快照(threaddump/javacore文件)、堆转储快照(heapdump/hprof文件)等。经常使用适当的虚拟机监控和分析的工具可以加快我们分析数据和定位解决问题的速度,但我们在学习工具前,也应当意识到工具永远都是知识技能的一层包装,没有什么工具是“秘密武器”,学会了就能包医百病”
概述 jps 命令类似与 linux 的 ps 命令,但是它只列出系统中所有的 Java 应用程序。 通过 jps 命令可以方便地查看 Java 进程的启动类、传入参数和 Java 虚拟机参数等信息。
1)在各个JournalNode节点上,输入以下命令启动journalnode服务:(前提zookeeper集群已启动)
2.所有操作都是使用root用户去操作。也可以使用其他用户,非root的话要注意操作的权限问题。
jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。它和linux中的ps有类似的功能。
本文将通过一次jvm内存分析过程来说明jps、jcmd、jstat、jstack 和 jmap 工具的使用方法。
jps是java提供的一个显示当前所有java进程pid的命令,适合在linux/unix平台上简单察看当前java进程的一些简单情况。
根据网上的文章搭建了Hadoop 2.2.0的环境,具体内容如下,备用后续自己做参考。
在线上环境中,当CPU占用率异常高时,经常需要定位到是哪个Java进程导致的,并进一步找到该进程启动的JAR文件。以下提供了几种方法来帮助你快速找到这些信息。
正常情况下,一个jps -ml就可以查看机器上有多少Java进程以及它们的PID,如果还要看端口号,甚至内存占用,就还要配合netstat以及ps等查询,如果直接使用一个命令就能查出所有信息多好呀,那就试试吧。
node0、node1、node2三台机器之间要设置SSH免密码登录,详细的设置步骤请参考《Linux配置SSH免密码登录(非root账号)》;
代码: https://github.com/cyofeiyue/MyRPC 1.Akka配置信息 //Master akka.actor.provider = "akka.remote.RemoteActorRefProvider" akka.remote.netty.tcp.hostname = "$host" akka.remote.netty.tcp.port = "$port" //Worker akka.actor.provider = "akka.remote.RemoteActorRef
用来查看基于HotSpot JVM里面所有进程的具体状态, 包括进程ID,进程启动的路径等等。与unix上的ps类似,用来显示本地有权限的java进程,可以查看本地运行着几个java程序,并显示他们的进程号。使用jps时,不需要传递进程号做为参数。
集群中只有mapred-site.xml.template,可以从这个文件进行复制
正文开始前的废话: 这里的程序即包括b/s的web application,也包括standalone的类c/s的java application。 为什么要自我重启? 场景1:分布式环境中,一般会有很多应用(即包括c/s的java application,又有b/s的web application)部署在不同的环境中,为了管理方便,通常会把一些公用的配置,比如:报警发邮件用的邮箱账号/密码/smtp信息,公用的ftp账号信息,甚至jdbc的连接串信息等,统一放在某个位置(共享的网络存储目录、redis缓存
生产环境中直接排查 JVM 的话,最简单的做法就是使用 JDK 自带的 6 个非常实用的命令行工具来排查。它们分别是:jps、jstat、jinfo、jmap、jhat 和 jstack,它们都位于 JDK 的 bin 目录下,可以使用命令行工具直接运行,其目录如下图所示:
在上篇博客中简单介绍了Zookeeper的特点和应用场景,详情可参考:《Zookeeper简介(一)》,那么这篇博客我们介绍一下关于Zookeeper的单机模式安装步骤与配置。
我们在大数据的日常生产当中会经常使用到jps命令,如果问起很多人他们都会知道jps命令是用来干什么的,查看java相关的进程。但是这个命令是属于哪个组件提供的呢?最起码可以肯定不是linux系统自带的。
JVM大家可能都知道是个什么玩意-Java虚拟机,但是到底是个什么鬼?相信即使工作3-5年的程序员可能也不大了解。
本文用于解决 Apache Hadoop 启动时 DataNode 启动异常的问题,但是请注意这会删除 HDFS 中原有的所有数据,如果原有的数据很重要请不要这样做。
程序员免不了要与windows和linux打交道,在windows写启动脚本时要要用到bat,而在linux时则要使用到shell脚步。shell脚步具有严格的格式,稍不注意就会出问题,今天分享一个小经验,但是受益程序员终身。下面是网上找来的一段shell脚本:
特殊说明: 解决问题的光鲜,藏着磕Bug的痛苦。 万物皆入轮回,谁也躲不掉! 以上文章,均是我实际操作,写出来的笔记资料,不会出现全文盗用别人文章!烦请各位,请勿直接盗用!
JVM大家可能都知道是个什么玩意-Java虚拟机,但是到底是个什么鬼?相信即使工作3-5年的程序员可能也不大了解。 如题所述,今天与大家分享的是如何分析JVM的线程堆栈以及如何从堆栈信息中找出问题。
千里之行始于足下,学习大数据我们首先就要先接触Hadoop,上节介绍到Hadoop分为Hadoop-HDFS,Hadoop-YARN,Hadoop-Mapreduce组成,分别负责分布式文件存储,任务调度,计算处理,本机我们在单机模式下把Hadoop运行起来并且简单的使用接触Hadoop相关的机制. 附上: Hadoop的官网:hadoop.apache.org 喵了个咪的博客:w-blog.cn 1.环境准备 这里所有的系统统一使用Centos7.X 64位系统 其他系统未经过测试 创建install
在实际的故障排查、性能监控中,常常是操作系统的工具和Java虚拟机的工具结合使用。
Loaded 类加载数、Bytes 加载的Kb数、Unloaded卸载类数、Bytes 卸载的Kb数、Time 执行类加载和卸载操作的时间
jps(Java Virtual Machine Process Status Tool)
**JPS (JVM Process Status Tool)**是其中的典型jvm⼯具。除了名字像 UNIX 的 ps 命令之外,它的功能也和 ps 命令类似:可以列出正在运⾏的虚拟机进程,并显示虚拟机执⾏主类(Main Class, main()函数所在的类)名称以及这些进程的本地虚拟机唯- ID (Local VirtualMachine Identifier, LVMID),虽然功能⽐较单⼀,但它是使⽤频率最⾼的 JDK 命令⾏⼯具
领取专属 10元无门槛券
手把手带您无忧上云