最近好多人都在问我,大数据怎么学,java怎么转大数据,今天就给大家分享一下。
大数据学习群:199427210
大数据现在很火很热,但是怎么学习呢?下面我给大家分享一下:
首先给大家普及一下大数据相关知识大数据的4大特征:
1.数据在体量方面很大,比如说文字,有各种各样的来源,有电子书|实体书|杂志|报刊等,它们的数据大吧。
2.数据的类型多种多样,有些是结构化的数据,像存在Oracle,MySQL这些传统的数据库里的数据,一般都是结构化,可以是还有非结构化,比如HTML,WORD,execl等格式。
3.它们的价值密度低,这样说吧,你比如说观看一条数据好像价值也不大,但是分析所有的数据之后呢?总会挖掘出一些 重要的东西。
4.处理这些数据的速度要快。比如像Hadoop技术的MapReduce计算框架,相比传统的数据库处理速度要快,它的吞吐量 特别的大,再比如Spark,Spark在内存方面计算比Hadoop快100倍,在磁盘方面计算快10倍。
大数据的方向的工作有 大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。
大数据的技术有
看到这么多技术是不是有点晕呢?该怎么学习呢?
后期可以学习机器学习Mahout
基本就是这样的学习顺序。加油学习吧。
一. Python学习路线图
1. 基础语法结构(语句块、程序输入输出、文档字符串、日期和时间函数等)
2. 变量和赋值、数字、字符串、列表、元组、字典
3. 代码块及缩进对齐
4. if语句、判断条件
5. Python流程控制语句:while循环、for循环与range()内建函数列表解析
6. 文件对象:文件打开方法、文件输入输出
7. 函数:函数创建、参数等
8. 模块:模块的导入及加载等
9. 语句和语法
10. 数字对象详解,数字运算符及其内建函数等
11. 字符串详解:字符串切片、相关方法
12. 列表:更新、访问及相关函数
13. 元组操作符及内建函数应用
14. 字典详解:创建、更新及相关方法等
15. 集合:可变与不可变集合以及其关内建函数
16. 操作mysql数据库
17. XML解析
18. 熟悉os模块:访问文件系统的主要方法
19. 异常:捕获异常、处理异常
20. 函数高级应用:闭包、装饰器
21. 函数式编程:偏函数、递归函数应用
22. 模块和包:创建及使用方法
23. 面向对象编程
二.Hadoop学习路线图
1. 了解Hadoop生态系统概述以及版本演化
2. HDFS文件系统原理、特性与基本架构
3. HDFS文件系统API编程
a) 使用 FileSystem API 操作 HDFS 中内容
b) 了解 Configuration,Path ,FileStatus,FSDataInputStream,FSDataOutputStream等API类的使用
4. HDFS文件系统命令行操作(hdfs fs -help操作命令)
4. YARN应用场景、基本架构与资源调度
5. Map-Reduce原理、体系架构和工作机制
6. Map-Reduce 编程实践(java python等多语言编程)
7. Map-Reduce高级编程实践
a) 重要的组件了解
i. InputFormat 输入格式(FileInputFormat,TextInputFormat,SequenceInputFormat等)
ii. OutputFormat 输出格式(FileOutputFormat,TextOutputFormat等)
iii. 多种输入与输出使用(MultipleInputs 多种输入,MultipleOututs 多种输出)
iv. Combiner
v. Partitioner
vi. RecordReader
vii. Writable 接口
viii. WritableComparable 接口与 RawComparator 接口
ix. 如何自定义的 Writable 类
b) 计数器(内置计数器,如何自定义计数器)
i. MapReduce 任务计数器:TaskCounter
ii. 文件系统计数器:FileSystemCounter
iii. 输入文件计数器:FileInputFormatCounter
iv. 输出文件计数器:FileOutputFormatCounter
v. 任务计数器:JobCounter
c) join(Map端Join,Reduce)
d) 排序(全排序,部分排序,二次排序)
8. Hadoop运维工具学习
dfsadmin/mradmin/balancer/distcp/fsck/job等
三.Hive学习路线图
1. hive体系架构
2. hive的访问方式(CLI, Hive Server2, HWI等)
3. HQL
a) 基础语法:DDL,DML
b) 数据类型
c) Hive高级查询语句(group by操作,Join操作,Order by和Sort by,Union all等)
4. 存储类型
a) TextFile
b) Sequence File
c) RCFile
d) ORCFile
5. 函数
a) 自带函数
b) 自定义函数(UDF,UDTF,UDAF)
四.Spark学习路线图
1.Spark基本架构
2.Spark工作机制
3.Spark计算模型
4. scala语言的学习
5.Spark编程
a) 掌握基本实例(wordcount join mapjoin 排序)
6.了解Spark sql 交互式查询
a) 运行架构
b) 基本使用
7.Spark Streaming
a) 基本架构
b) 运行原理
c) 运用场景
d) 编程模型DStream
e) 程序调优方式
8.机器学习
a) 定义
b) 分类
c) 常用算法
d) Mllib(概要,构成,运行架构,了解具体实例)
大数据基础入门学习图
大数据学习群:199427210
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。