在数据分析领域,pandas是python数据分析基础工具,SQL是数据库最常用分析语言。二者有相通的地方,也有很大的语法不同,做起数据分析来,谁将更胜一筹呢?
做过业务开发、跟数据库打交道比较多的小伙伴,经常会提到”增删改查“操作,分别对应数据的增加、删除、修改、查询,这4个操作。
下面,我将从查、增、删、改四个维度,依次比对pandas和SQL的实现步骤,比较二者的优劣。
文末含获取Python源码文件方式!
这里,我采用B站top100排行榜的数据,作为数据分析对象。
想学习如何爬取top100排行榜数据的小伙伴,请移步至:
,时长03:31
爬取下来的数据,存到excel:
数据准备完毕,开始数据分析,pandas和SQL进行逐行比对!
pandas查询前3行:
SQL查询前3行:
pandas查询后3行:
SQL查询后3行:
pandas方法1(中括号[]):
pandas方法2(loc):
pandas方法3(iloc):
【马哥小贴士】关于loc和iloc的说明: loc:works on labels in the index.(通过"索引名"定位) iloc:works on the positions in the index (so it only takes integers).(通过"索引值"定位)
SQL查询指定列:
pandas单条件查询:
SQL单条件查询:
pandas多条件查询(并且关系):
SQL多条件查询(并且关系AND):
pandas多条件查询(或者关系):
SQL多条件查询(或者关系OR):
pandas方法1(append):
pandas方法2(loc):
pandas方法3(concat):
SQL增加一行:
SQL增加多行:
pandas方法1(中括号[]):
pandas方法2(insert):
SQL增加一列:
pandas方法1(drop-行名):
pandas方法2(drop-行号):
pandas方法3(drop-删除特定条件的行):
SQL删除多行:
pandas方法1(drop):
pandas方法2(del):
SQL删除一列:
以上,就是针对增删改查4个操作依次比对了pandas和SQL的不同,后续还会针对join连接、union/concat连接、case when条件判断、groupby分组统计等操作继续发布内容,敬请关注。
根据数据存储类型,选择用哪个
·如果数据存储在数据库里,直接用SQL分析,比较方便。 ·如果数据存储在Excel,或者csv、txt等文本类数据,或者从网页爬取下的结构化数据,存储为pandas的DataFrame格式再分析,比较方便。
根据数据量、性能,选择用哪个
·大部分情况下,Pandas比SQL的运行性能更优。