大家好,我是一哥。
最近有几个群友问我大数据怎么入门,作为一个零基础大数据入门学习者该看哪些书呢?我结合自己看过的书和了解到的比较好的数据,给大家分享一下。
01
大数据有哪些相关岗位
要学习大数据,首先我们得了解一下都有哪些大数据相关的岗位,正所谓“面向工作编程”嘛。现在的很多公司的大数据团队一般有三个小组:大数据平台组、数据仓库组以及数据分析组。
虽然大家都属于一个部门,但是三个小组的岗位要求却不一样。下面介绍一下三个小组的技术要求以及工作重点。
一、大数据平台组
负责大数据平台的设计开发,大数据平台的运维,大数据应用系统的开发。
大数据平台的设计开发:参与大数据平台建设,包括架构设计以及开发实现。要求深入大数据生态体系,对Hadoop,spark,hive等分布式框架有深刻理解,通读主要源码,有大数据项目构建经验。
大数据平台的运维:负责运维大数据平台解决方案的制定、设计和实施,跟进HDFS,Yarn,Spark,Kafka,HBase,ELK等生态组件的落地实践。要求精通Hadoop/MapReduce/Hive/Spark等原理以及常见运维问题解决,熟悉ELK框架等。
大数据应用系统的开发:结合应用需求,规划应用场景并开发实现,驱动业务发展。要求掌握常用的编程语言以及框架。
二、数据仓库组
负责数据仓库的设计、建模、ETL任务开发等工作。数仓在小组内一般都是一拨人搞,业务分析、数仓设计、任务开发等都要做。
数仓开发:负责把业务系统的数据抽取到数据仓库,然后根据分析应用需求,建设数仓模型,开发对应的ETL任务,形成多个主题的分析模型,供分析师和业务系统调用。以做一桌菜来打个比方,ETL就是收集做菜的原料,初步择菜、洗菜加工的过程。数仓是根据不同的口味偏好(主题域),将ETL产生的原料加工成不同口味的每道菜的过程,最后,根据自己要招待的客人需要,把不同的菜随时拼成各种档次的定制佳肴。
三、数据分析组
负责对海量业务数据进行分析挖掘, 满足研发和运营等部门的业务和决策需求。
数据分析师:对数据有良好的敏感性, 能够通过数据察觉到背后的业务变化和潜在问题,熟悉常用的数据分析方法, 具备相关项目经验, 熟悉数据分析原理以及方案。
算法工程师:深入理解数据挖掘、机器学习算法原理,具备优秀的数据建模能力,能够根据实际问题选择合适的模型和算法。能够结合业务需求,开发相应的算法模型。
数据产品经理:数据普通产品经理的技能之外,还要具备数据分析技能,并了解整个大数据应用建设的流程,一般需要有数据相关技术背景。
02
怎么入门这些岗位
了解了每个岗位的能力需求,那么给大家推荐一些每个岗位相关的书籍。
大数据平台:
《Hadoop权威指南》《Hive编程指南》《Hbase权威指南》《大数据日知录》《Flink技术内幕》,还有各个大数据技术栈的官网。
数据仓库:
数据分析:
《业务建模与数据挖掘》《概率论与数理统计》《统计学》《机器学习(西瓜书)》《机器学习实战》,把Python写溜儿了。
当然,还有很多好的书籍,这里没有列出来,太多了大家也看不完,上面列的数据我大部分都看过,还都不错的。网上部门也有电子版,不过还是推荐大家购买正版书籍,深知码字不易!
03
总结
大数据的相关岗位目前还是很好找工作的,而且工资普遍比其他的同级IT工作工资要高。不过,对于刚入行的还是要了解一下相关岗位的工作内容,看哪个兴趣大一些就选哪个,毕竟按照996算的话,你一天50%的时间都在公司度过的。