首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习入门之pandas库

sefd

数据处理作为机器学习中不可或缺的一环,是学习机器学习的入门必修课之一。数据是机器学习的灵魂(个人认为),任何机器学习算法都离不开数据。python中提供的数据处理库有numpy、pandas、matplotlib以及Scipy等等,今天我们来说Pandas库的数据处理的函数命令。

Pandas库是统计科学家在分析数据时的理想工具,非常适合应用于数据清洗,分析/建模,其兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能。它也提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块,聚合以及选取数据子集等操作。可以将分析结果组织成适合于绘图或表格显示的形式的全部过程。statsmodel库依赖Pandas库,使其成为Python统计计算系统的重要组成部分。

一、安装与导入

python中可直接通过pip进行安装。

导入

二、基本函数

导入CSV或者xlsx文件

用pandas创建数据表

三、数据信息查看

数据表维度查看

数据表基本信息(维度、列名称、数据格式、所占空间等)

每一列数据的格式

某一列格式

空值

查看某一列的唯一值

查看列名称

查看前10行数据、后10行数据

四、数据表清洗

用数字0填充空值

使用列prince的均值对NA进行填充

数据替换

使用iloc按位置区域提取数据

判断city列里是否包含beijing和shanghai,然后将符合条件的数据提取出来

数据表合并

按索引提取单行的数值

五、数据筛选

使用“与”进行筛选

使用“或”进行筛选

使用“非”进行筛选

对筛选后的数据按city列进行计数

对所有的列进行计数汇总

六、数据读写

写入Excel

写入到CSV

欢迎关注和分享公众号

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180731A19FUF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券