首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何通过一顿饭来说明NumPy与pandas的功用

谈到数据分析,则离不开谈及R语言及R语言与Python在数据分析领域孰优孰劣之争。首先R语言作为正统统计学软件,数据分析则是其应有之义,因而相比于Python这个在数据分析领域的新起之秀,R语言算是与Matlab、SAS在同一起跑线上。后发优势毕竟是可观的,当Python开始涉足数据分析领域时,其便渐渐形成了与R语言分庭抗礼的趋势。

上图展示了NumPy、pandas(以及matplotlib)的历史总共下载量等信息。可以看出,两者总共有过近80万的下载量,如果按照市场价值计量,两者合计价值近1500万美元,但它们都可以免费使用。

0,1,2,3是索引,4,7,-5,3是值,索引可以自行指定的。而DataFrame是一个表格型的数据结构,它含有一组有序的列,每一列可以是不同的值类型(数值、字符串布尔值等),DataFrame既有行索引也有列索引,可以被看做是由Series组成的字典(共用同一个索引),如:

pandas可以读取较多类型的文件格式,从简单的txt、csv、json到excel,hdf5、pickle再到sas、sql、stata等等文件格式都有得以支持。在读取数据时,函数会使用到若干技术将数据转换成DataFrame格式,如索引、类型推断和数据转换、日期解析、迭代与不规整数据问题等。

最后分享的是pandas的时间序列类函数,可以说是pandas让处理时间序列数据变得得心应手。第三方包datetime与dateutil能够将识别与处理多种时间格式,pandas自身可以生成指定频率的DatetimeIndex,也可以处理时区信息。其移动窗口函数则是大大方便了时间序列分析,使得建立各种AR、MA、ARMA、ARIMA等等时间序列模型方便快捷,而这正是R语言的领地。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181003A0RT2800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券