近年来,数据分析正在改变我们的工作方式,数据分析相关工作也越来越受到人们的青睐。我们知道很多编程语言都可以做数据分析,比如R、Matlab、Python等等,对于想从事数据分析的初学者应该如何选择编程语言呢?我建议大家使用python进行数据分析,原因有以下四点:
一
python语言非常的简单、易学,适合初学者作为入门语言
Python的语法简单,代码可读性高,容易入门,有利于初学者学习。举个例子,假如我们在处理数据的时候,希望把用户性别数据数值化,也就是变成计算机可以运算的数字形式,我们可以直接用一行列表推导式完成,十分的简洁,相信你即使没有学过,看代码也能猜出要干什么:
数据原始形式:
>>>data= ['male','female','male','male','female']
我们使用一行代码做转化:
>>> data_int = [1 if x == 'male' else 0 for x in data]
这样就得到了数值化的data_int:
>>> data_int
[1, 0, 1, 1, 0]
是不是非常的简单?这种转化在做数据预处理的时候用的很多。
二
Python拥有一个巨大而活跃的科学计算社区
Python在数据分析和交互、探索性计算以及数据可视化等方面都有非常成熟的库和活跃的社区,使python成为数据处理任务重要解决方案。在科学计算方面,python拥有numpy、pandas、matplotlib、scikit-learn、ipython等等一系列非常优秀的库和工具,特别是pandas在处理中型数据方面可以说有着无与伦比的优势,正在成为各行业数据处理任务的首选库,比如我们生成一些随机数据:
现在我们选取其中大于0的数值:
或者我们绘图查看A、B、C、D这四列值的变化:
我们都是使用了一行的代码就完成了这些任务,非常的简单快速,大家在我们犀数微课的python数据分析课程中会详细了解到这几行代码的含义。
三
python拥有强大的通用编程能力
不同于R或者matlab,python不仅在数据分析方面能力强大,在爬虫、web、自动化运维甚至游戏等等很多领域都有广泛的应用。这就使公司使用一种技术完成全部服务成为可能,有利于各个技术组之间的业务融合。比如,我们用python的爬虫框架scrapy爬取数据,然后交给pandas做数据处理,最后使用python的web框架django给用户作展示,这一系列任务可以全部用python完成,能大大提高公司的技术效率。
四
python是人工智能时代的通用语言
在人工智能火热的今天,python已经成为了最受欢迎的编程语言。得益于python的简洁、丰富的库和社区,大部分深度学习框架都优先支持python语言编程,比如当今最火热的深度学习框架tensorflow,它虽然是C++编写的,但对python语言支持最好,事实上,你可以在命令行中输入以下代码看看:
>>> import tensorflow as tf
>>> import numpy as np
>>> tf.int32 == np.int32
True
我们看到谷歌深度学习框架tensorflow的数据类型与numpy的数据类型是等价的,这是因为tensorflow在设计的时候就是参考了numpy的数据类型,并有意使其成为python科学计算系列库的重要部分。
以上就是我为大家介绍的使用python进行数据分析的原因,相信在未来会有更多的人和公司选择python、使用python,也欢迎大家加入到犀数微课python数据分析课程中来,与时代共舞、与你我共成长!
分享者:明光华
一位擅长利用python进行数据分析、可视化及网络爬取的数据工作者
有希望与我共同交流、探讨“如何学习、使用Python”的伙伴,欢迎大家报名由中国商业联合会数据分析专业委员会主办、犀数学院承办的《与大咖对话》线上直播活动!
2018年1月31日(周三)晚20:00
报名方式只会在“犀数公益讲堂微信群”公布!还没入群的伙伴,扫描下方分析君微信,邀您入群
转载:自犀数学院公众号
领取专属 10元无门槛券
私享最新 技术干货