最近发现自己特愿意扯和分享内容本身无关的事情,下述内容纯闲扯:
首先介绍什么是pandas
panda我们很熟悉!蠢萌蠢萌,让人想抱起来捏两下的国宝!
pandas是什么啦!遥记英文老师曾讲S是复数的意思!
那pandas就是!!!!
好吧!pandas的主人貌似是熊猫爱好者,或者最初是用来分析熊猫行为的!
不管怎样,Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
这段话来自百度百科!
反正就是用于数据分析、数据处理很牛啦!具体有多牛呢!以后我们慢慢来体会!
今天先和大家分享一个Python的小应用!按照某列拆分数据并分别存储至不同文件!
大家可以先下载一下这个文件实验一下!
链接:https://pan.baidu.com/s/1kW0nJoF密码:56xd
友情提醒!文件有43MB,手机党慎点!
我的文件行数有多少呢?
我们打开看一下!
也许我的个人电脑差一点吧!打开文件用了1分钟,我不太舍得让大家盯着圆圈看一分钟,所以还是略过打开的截图了!
我自己一行一行的数,数了四个小时,一共有57万多行!
如何按照K列镇区的非重复值拆分为独立文件呢!
方法一:勤劳小蜜蜂!
刚刚演示了普通劳动人民是如何按照某列拆分一列的!考虑K列有三十多种可能,勤劳如我也没有操作完!你们感兴趣可以弄一下!
方法二、Excel达人!
Excel强如我的!肯定不会手动筛选然后粘贴了!VBA一串代码搞定!
还是直接用强大如我的阿凯的Excel插件解决问题吧!
然后我就经历了漫长的等待-----未响应-----重新启动从零开始!!
我恨你拿五十多万行的数据欺负我!!
有本事你拿五百万行的数据哇!!!
反正我的插件都解决不了!
方法三、pandas出马!
逼得我非要用pandas!看看Python处理能用多久搞定!
基本上运行完代码后,打开目标文件夹就会发现会有源源不断的新文件生成!其实小编的电脑还是比较差的,台式机基本上打开文件夹就看到里面全是文件了!各位自己试试哦!
我把代码放到下面,简单做下解释!
import pandas as pd#导入pandas包
cf=open(r"D:\按照某列拆分文件测试.csv",encoding='gb18030',errors='ignore')#r代表文本没有转义字符,第一段输入的是打开文件的路径及文件名,encoding后面接的参数是代表使用什么编码gb18030比gb2312更为强大!error代码代表略过有错误的行
df= pd.read_csv(cf)#读取文件
list_township = df['镇区'].drop_duplicates()#删除镇区重复项drop_duplicates()为pandas自带方法!很方便
for township in list_township:#循环遍历列表,前面基础课程分享过
save = df.loc[df["镇区"] == township]#将镇区列等于镇区某个关键字的筛选出来赋值给save变量,中括号内是判断条件,df.loc[]代表将符合筛选条件的筛选出来
save.to_csv('D:/拆分后数据/'+ str(township) + '.csv',index=False,sep=',') #存储至新的文件夹,并且按照筛选条件命名文件
知道有的朋友看到这些代码很头疼!如果不理解没有关系!
本期只是解释小编为什么分享pandas,代码只是顺便分享的!
后续我们从pandas最基础的知识开始分享!
如果你有用Excel处理大数据的需求,学习pandas准没有错!
期待您与我共同成长、共同学习进步!
领取专属 10元无门槛券
私享最新 技术干货