前言
目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。
基础概念
大数据的本质
一、数据的存储:分布式文件系统(分布式存储)
二、数据的计算:分部署计算
基础知识
学习大数据需要具备Java知识基础及Linux知识基础
学习路线
(1)Java基础和Linux基础
(2)Hadoop的学习:体系结构、原理、编程
第一阶段:HDFS、MapReduce、HBase(NoSQL数据库)
第二阶段:数据分析引擎 -> Hive、Pig
第三阶段:HUE:Web管理工具
(3)Spark的学习
(4)Apache Storm 类似:Spark Streaming ->进行流式计算
NoSQL:Redis基于内存的数据库
HDFS
分布式文件系统 解决以下问题:
管理员:NameNode 硬盘:DataNode
MapReduce
MapReduce数据流程分析:
HBase
什么是BigTable?: 把所有的数据保存到一张表中,采用冗余 ---> 好处:提高效率
Hadoop环境搭建
环境准备
Linux环境、JDK、http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-3.0.0/hadoop-3.0.0-src.tar.gz
安装
1、安装jdk、并配置环境变量
2、解压hadoop-3.0.0.tar.gz、并配置环境变量
vim /etc/profile 末尾添加
配置
Hadoop有三种安装模式:
我们以伪分布模式为例配置:
修改hdfs-site.xml:冗余度1、权限检查false
修改core-site.xml
修改mapred-site.xml
修改yarn-site.xml
格式化NameNode
看到
表示格式化成功
启动
start-all.sh
(*)HDFS:存储数据
(*)YARN:
访问
(*)命令行
(*)Java Api
(*)WEB Console
HDFS: http://192.168.56.102:50070
Yarn: http://192.168.56.102:8088
查看HDFS管理界面和yarn资源管理系统
基本操作:
HDFS相关命令
MapReduce示例
结果:
如上 一个最简单的MapReduce示例就执行成功了
思考
Hadoop是基于Java语言的,前端日常开发是用的PHP,在使用、查找错误时还是蛮吃力的。工作之余还是需要多补充点其它语言的相关知识,编程语言是我们开发、学习的工具,而不应成为限制我们技术成长的瓶颈!
∞∞∞∞∞
IT派 -
持续关注互联网、区块链、人工智能领域
领取专属 10元无门槛券
私享最新 技术干货