作为转行学习数据分析,自然看了不少文章,走了不少弯路,学了不少有用没用的,下面推荐一篇入门该学习的文档手册。这本手册包含了入门需要掌握的技能,包括python、爬虫、数据库、统计分析知识、机器学习知识。必备的工具主要是anaconda(数据科学强烈推荐),MySQL。
主要分为以下几个部分:
Python 基础语法
数据类型:字符串、布尔型、整数、浮点数、列表、元组、字典、集合等; 运算符:Python主要的运算符有数学运算符、逻辑运算符、比较运算符;
表达式:由值、变量、运算符组成;
控制流:Python有三种控制流,if/for/while来控制表达式执行的顺序;
函数、变量作用域(局部和全局)、lambda函数:使得代码变得更简洁和更具有可迁移性;
字符串操作:替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、去空格、分割等;
数据操作:数据索引、切片、添加、插入、移除、排序等方法;
正则表达式:使用正则表达式可以实现模糊匹配、替换和拆分。
SQL基础知识
建立表:SQL语句操作的对象是表格,表格的建立是操作的基础,可以使用CREATE命令进行建立;
插入、更新和删除数据:建立了表格之后需要使INSERT,DELETE,DROP来对表格进行更进一步的插入新值新列、删除部分数据、删除整张表的操作。
数据检索:用SELECT语句来实现检索功能,它是最经常被使用到的SQL语句;
数据排序:ORDER BY语句;
数据过滤:WHERE语句限定了搜索的条件;BETWEEN/IN/NOT操作符限定了查询值的范围;AND/OR操作符表达搜索条件间的逻辑关系;数据汇总和分组可以使用GROUP BY语句。
子查询:可以嵌套在主查询的SELECT,WHERE,FROM,GROUP BY等位置,使用子查询可以写出具有更复杂功能的SQL语句,使得查询更加灵活。
组合查询:使用UNION操作符,连接多个SELECT语句,把多条查询结果当做一条组合查询返回,大大简化了查询的复杂程度。
关系型数据库的设计方便了处理和提高了存储的效率,然而却带来了一个问题,就是跨表的查询。联结是一种机制,用于关联不同的表。
基本概念:主键、外键。
种类:内部联结;自然联结;外部联结;带聚集函数的联结。
LIKE操作符支持的通配符:可以用于匹配搜索值的某一部分,来实现数据的过滤。
python数据分析与可视化
数据分析(NumPy/Pandas)
Python数据可视化,常用的Python可视化工具包有:matplotlib、seaborn等。
机器学习
监督学习:线性回归,逻辑回归,决策树,朴素贝叶斯、最近邻等算法
无监督学习:聚类算法、降维算法等。
scikit-learn是一个开源学习模块,为用户提供了许多机器学习的算法接口,可以使用Python直接调用。
这些都只是一些入门需要掌握的内容,最重要的还是多实践、多练习。通时也要养成数据分析师思考问题的习惯:
问题的重要性(为什么要分析这个问题?)
问题的准确定义(可以以假设检验的方式写出)
如何选择分析所使用的数据集(数据来源是否可靠,内容是否充分?)
问题分析所采用的方法(方法是否适用?)
数据分析预处理(如何生成训练集、测试集)
分析结果所采用的评价指标
要清楚分析所使用的方法以及数据集的局限在哪里
最后就是要学会写数据分析报告,因此会ppt,数据可视化软件也是很重要的。
学习最重要的是持之以恒,不间断的学习加上练习,肯定能取得非常好的效果。今天展示的是入门需要掌握的一些知识,在以后,我会逐渐通过这些知识,完成一些有意思的项目,深入了解学习每一个功能模块。
领取专属 10元无门槛券
私享最新 技术干货