在过去两个月的时间里,小编主要分享了Python及爬虫相关基础知识。
由于小编对Python的数据分析方向比较感兴趣,所以准备先从该方向进行深入学习;而Python的其他方向则会在小编学有余力的情况下进行学习分享。
下面说下利用Python进行数据分析时用到的主要工具:
一:解释器
推荐使用 Ipython的shell解释器,可能你们已经有人在用了,不得不说交互体验非常棒。安装起来也很方面,同之前介绍到的第三方库的安装方法类似,下面举例是基于windows操作系统
打开命令窗口
输入执行pip install ipython
即可自行安装
Ipython的快捷命令:
- Ctrl-P 或上箭头键 后向搜索命令历史中以当前输入的文本开头的命令
- Ctrl-N 或下箭头键 前向搜索命令历史中以当前输入的文本开头的命令
- Ctrl-R 按行读取的反向历史搜索(部分匹配)
- Ctrl-Shift-v 从剪贴板粘贴文本
- Ctrl-C 中止当前正在执行的代码
- Ctrl-A 将光标移动到行首
- Ctrl-E 将光标移动到行尾
- Ctrl-K 删除从光标开始至行尾的文本
- Ctrl-U 清除当前行的所有文本
- Ctrl-F 将光标向前移动一个字符
- Ctrl-b 将光标向后移动一个字符
- Ctrl-L 清屏
二:第三方库
利用Python进行数据分析时,用的较多的就是Numpy、Pandas及Matplotlip库。安装方法同上执行: pip install 库名
NumPy
是一个开源的Python科学计算基础库,目前来看也是python进行科学计算和数据分析的最基础的第三方库,NumPy的功能主要包含以下一些方面:
1.一个强大的N维数组对象ndarray
2.一组广播功能函数,用来在数组之间进行计算
3.整合C/C++/Fortran等代码的工具
4.线性代数、傅里叶变换、随机数生成等功能
在进行数据分析时,使用最多的可能是多维数组的创建这一点。
Pandas库
是基于NumPy 的一种工具,是为了解决数据分析任务而创建的。pandas库中包含的几种数据结构,使用较多的是Series(一维数组,类似于numpy的一维数组)和DataFrame(二维数组),别的还有比如 :Time- Series(以时间为索引的Series)、Panel (三维的数组,可以理解为DataFrame的容器)。
Matplotlip库
该库主要是结合其他库进行数据的可视化操作。
在此期间可能会涉及到别的库的使用,届时会详细说明。
三:数据分析专题大致框架
数据分析框架图
(1):数据准备
(2):数据处理
(3):数据分析
(4):数据可视化
(5):数据分析实战
五个步骤功能的实现都是基于上面提到的第三方库及数据来进行的。
领取专属 10元无门槛券
私享最新 技术干货