首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas与SQL的数据操作语句对照

介绍

SQL的神奇之处在于它容易学习,而它容易学习的原因是代码语法非常直观。

另一方面,Pandas不是那么直观,特别是如果像我一样首先从SQL开始。

就我个人而言,我发现真正有用的是思考如何在SQL中操作数据,然后在Pandas中复制它。所以如果你想更加精通Pandas,我强烈建议你也采用这种方法。

因此,本文可以作为一个备查表、字典、指南,无论你想怎么称呼它,这样你在使用Pandas时就可以参考它。

说了这么多,让我们开始吧!

内容

选择行

结合表

条件过滤

根据值进行排序

聚合函数

选择行

SELECT * FROM

如果你想要选择整个表,只需调用表的名称:

# SQL

SELECT * FROM table_df

# Pandas

table_df

SELECT a, b FROM

如果你想从一个表中选择特定的列,列出你想要的列在双括号中:

# SQL

SELECT column_a, column_b FROM table_df

# Pandas

table_df[['column_a', 'column_b']]

SELECT DISTINCT

简单地使用.drop_duplicates()获取不同的值:

# SQL

SELECT DISTINCT column_a FROM table_df

# Pandas

table_df['column_a'].drop_duplicates()

SELECT a as b

如果你想重命名一个列,使用.rename():

# SQL

SELECT column_a as Apple, column_b as Banana FROM table_df

# Pandas

table_df[['column_a', 'column_b']].rename(columns={'column_a':

'Apple', 'column_b':'Banana'})

SELECT CASE WHEN

对于等价于SELECT CASE WHEN的情况,您可以使用np.select(),其中首先指定您的选择和每个选择的值。

# SQL

SELECT CASE WHEN column_a > 30 THEN "Large"

        WHEN column_a

        END AS Size

FROM table_df

# Pandas

conditions = [table_df['column_a']>30, table_df['column_b']

choices = ['Large', 'Small']

table_df['Size'] = np.select(conditions, choices)

组合表

INNER/LEFT/RIGHT JOIN

只需使用.merge()连接表,就可以使用“how”参数指定它是左连接、右连接、内连接还是外连接。

# SQL

SELECT * FROM table_1 t1

      LEFT JOIN table_2 t1 on t1.lkey = t2.rkey

# Pandas

table_1.merge(table_2, left_on='lkey', right_on='rkey', how='left')

UNION ALL

使用pd.concat ():

# SQL

SELECT * FROM table_1

UNION ALL

SELECT * FROM table_2

# Pandas

final_table = pd.concat([table_1, table_2])

条件过滤

SELECT WHERE

当你用SQL中WHERE子句的方式过滤数据流时,你只需要在方括号中定义标准:

# SQL

SELECT * FROM table_df WHERE column_a = 1

# Pandas

table_df[table_df['column_a'] == 1]

SELECT column_a WHERE column_b

当你想从一个表中选择一个特定的列并用另一个列过滤它时,遵循以下格式:

# SQL

SELECT column_a FROM table_df WHERE column_b = 1

# Pandas

table_df[table_df['column_b']==1]['column_a']

SELECT WHERE AND

如果您希望通过多个条件进行筛选,只需将每个条件用圆括号括起来,并使用' & '分隔每个条件。

# SQL

SELECT * FROM table_df WHERE column_a = 1 AND column_b = 2

# Pandas

table_df[(table_df['column_a']==1) & (table_df['column_b']==2)]

SELECT WHERE LIKE

相当于SQL中的LIKE的是.str.contains()。如果您想应用大小写不敏感,只需在参数中添加case=False。

# SQL

SELECT * FROM table_df WHERE column_a LIKE '%ball%'

# Pandas

table_df[table_df['column_a'].str.contains('ball')]

SELECT WHERE column IN()

SQL中的IN()等价于.isin()

# SQL

SELECT * FROM table_df WHERE column_a IN('Canada', 'USA')

# Pandas

table_df[table_df['column_a'].isin(['Canada', 'USA'])]

根据值进行排序

ORDER BY 单列

SQL中的ORDER BY等价于.sort_values()。使用“ascending”参数指定是按升序排序还是按降序排序——默认情况下像SQL一样是升序排序。

# SQL

SELECT * FROM table_df ORDER BY column_a DESC

# Pandas

table_df.sort_values('column_a', ascending=False)

ORDER BY 多列

如果您希望按多个列排序,请列出方括号中的列,并在方括号中的' ascending '参数中指定排序的方向。

# SQL

SELECT * FROM table_df ORDER BY column_a DESC, column_b ASC

# Pandas

table_df.sort_values(['column_a', 'column_b'], ascending=[False, True])

聚合函数

COUNT DISTINCT

请注意聚合函数的一种常见模式。

要使用DISTINCT计数,只需使用.groupby()和.nunique()。

# SQL

SELECT column_a, COUNT DISTINCT(ID)

FROM table_df

GROUP BY column_a

# Pandas

table_df.groupby('column_a')['ID'].nunique()

sum

# SQL

SELECT column_a, SUM(revenue)

FROM table_df

GROUP BY column_a

# Pandas

table_df.groupby(['column_a', 'revenue']).sum()

avg

# SQL

SELECT column_a, AVG(revenue)

FROM table_df

GROUP BY column_a

# Pandas

table_df.groupby('column_a')['revenue'].mean()

总结

希望在使用Pandas处理数据时,本文可以作为有用的指南。不要觉得你必须记住所有这些!当我和Pandas一起工作时,我经常会回想到这一点。

如果能够通过足够的练习,你将对Pandas感到更舒适,并充分理解其潜在机制,而不需要依赖于像这样的备记单。

一如既往,祝你编码快乐!:)

作者:Terence

deephub翻译组

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201117A026KO00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券