首页
学习
活动
专区
圈层
工具
发布

如何用 Python 执行常见的 Excel 和 SQL 任务

每个括号内的列表都代表了我们 dataframe 中的一行,每列都以 key 表示:我们正在处理一个国家的排名,人均 GDP(以美元表示)及其名称(用「国家」)。...有关数据结构,如列表和词典,如何在 Python 中的运行的更多信息,本教程将有所帮助。...我们为一个新的 dataframe 分配一个布尔索引的过滤器,这个方法基本上就是说「创建一个人均 GDP 超过 50000 的新 dataframe」。现在我们可以显示gdp50000。 ?...有12个国家的 GDP 超过 50000! 选择属于以 s 开头的国家的行。 现在可以显示一个新 dataframe,其中只包含以 s 开头的国家。...这是一个非常肤浅的分析:你想实际做一个加权平均数,因为每个国家的人均 GDP 不代表一个群体中每个国家的人均 GDP,因为在群体中的人口不同。

12.2K60
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    用Python执行SQL、Excel常见任务?10个方法全搞定!

    每个括号内的列表都代表了我们 dataframe 中的一行,每列都以 key 表示:我们正在处理一个国家的排名,人均 GDP(以美元表示)及其名称(用「国家」)。...有关数据结构,如列表和词典,如何在 Python 中的运行的更多信息,本篇将有所帮助。...我们为一个新的 dataframe 分配一个布尔索引的过滤器,这个方法基本上就是说「创建一个人均 GDP 超过 50000 的新 dataframe」。现在我们可以显示gdp50000。 ?...有12个国家的 GDP 超过 50000! 选择属于以 s 开头的国家的行。 现在可以显示一个新 dataframe,其中只包含以 s 开头的国家。...这是一个非常肤浅的分析:你想实际做一个加权平均数,因为每个国家的人均 GDP 不代表一个群体中每个国家的人均 GDP,因为在群体中的人口不同。

    9.5K20

    Pandas DataFrame 中的自连接和交叉连接

    有很多种不同种类的 JOINS操作,并且pandas 也提供了这些方式的实现来轻松组合 Series 或 DataFrame。...自连接 顾名思义,自连接是将 DataFrame 连接到自己的连接。也就是说连接的左边和右边都是同一个DataFrame 。自连接通常用于查询分层数据集或比较同一 DataFrame 中的行。...要获取员工向谁汇报的姓名,可以使用自连接查询表。 我们首先将创建一个新的名为 df_managers的 DataFrame,然后join自己。...df_manager2 的输出与 df_manager 相同。 交叉连接 交叉连接也是一种连接类型,可以生成两个或多个表中行的笛卡尔积。它将第一个表中的行与第二个表中的每一行组合在一起。...总结 在本文中,介绍了如何在Pandas中使用连接的操作,以及它们是如何在 Pandas DataFrame 中执行的。这是一篇非常简单的入门文章,希望在你处理数据的时候有所帮助。

    5.4K20

    资源 | Feature Tools:可自动构造机器学习特征的Python库

    通过从一或多列中构造新的特征,「转换」作用于单张表(在 Python 中,表是一个 Pandas DataFrame)。举个例子,若有如下的客户表: ?...这个过程包括根据不同客户对贷款表进行分组并计算聚合后的统计量,然后将结果整合到客户数据中。以下是我们在 Python 中使用 Pandas 库执行此操作。...每个客户只对应数据框中的一行。 ? loans: 向用户提供的贷款。每项贷款只对应数据框中的一行,但是客户可能有多项贷款。 ? payments:贷款还本的支付。...每个实体都必须带有一个索引,它是一个包含所有唯一元素的列。就是说,索引中的每个值只能在表中出现一次。在 clients 数据框中的索引是 client_id,因为每个客户在该数据框中只对应一行。...对表来说,每个父亲对应一张父表中的一行,但是子表中可能有多行对应于同一张父表中的多个儿子。 例如,在我们的数据集中,clients 数据框是 loans 数据框的一张父表。

    2.5K20

    独家 | 浅谈PythonPandas中管道的用法

    作者:Gregor Scheithauer博士 翻译:王闯(Chuck)校对:欧阳锦 本文约2000字,建议阅读5分钟本文介绍了如何在Python/Pandas中运用管道的概念,以使代码更高效易读。...不使用管道的R语言示例(请参阅[2]) 下面的代码是一个典型示例。我们将函数调用的结果保存在变量中,如foo_foo_1,这样做的唯一目的就是将其传递到下一个函数调用中,如scoop()。...在Pandas中,大多数数据框函数都会返回数据集本身,我们将利用这一事实。这被称之为方法链。让我们继续以foo_foo为例。...图片来自作者 筛选,分组并生成新变量 接下来的示例对住房按距离小于2来进行筛选,按照类型进行分组,然后计算每个类型分组的平均价格。然后进行一些格式化。...图片来自作者 为不同区域的平均距离绘制条形图 管道概念的妙处是,它不仅可以用于评估或处理数据,也可以与绘图一起使用。

    3.2K10

    【如何在 Pandas DataFrame 中插入一列】

    为什么要解决在Pandas DataFrame中插入一列的问题? Pandas DataFrame是一种二维表格数据结构,由行和列组成,类似于Excel中的表格。...在实际数据处理中,我们经常需要在DataFrame中添加新的列,以便存储计算结果、合并数据或者进行其他操作。...不同的插入方法: 在Pandas中,插入列并不仅仅是简单地将数据赋值给一个新列。...可以进一步引入不同的插入方法,为读者提供更灵活和强大的工具,以满足各种数据处理需求: 1.使用函数应用: python Copy code import pandas as pd # 创建一个简单的DataFrame...在实际应用中,我们可以根据具体需求使用不同的方法,如直接赋值或使用assign()方法。 Pandas是Python中必备的数据处理和分析库,熟练地使用它能够极大地提高数据处理和分析的效率。

    3.9K10

    高效的10个Pandas函数,你都用过吗?

    Insert Insert用于在DataFrame的指定位置中插入新的数据列。默认情况下新列是添加到末尾的,但可以更改位置参数,将新列添加到任何位置。...,如 column='新的一列' value:新列的值,数字、array、series等都可以 allow_duplicates: 是否允许列名重复,选择Ture表示允许新的列名与已存在的列名重复 接着用前面的...,保持原来的值,否则替换为other other:替换的特殊值 inplace:inplace为真则在原数据上操作,为False则在原数据的copy上操作 axis:行或列 将df中列value_1里小于...Isin Isin也是一种过滤方法,用于查看某列中是否包含某个字符串,返回值为布尔Series,来表明每一行的情况。...如果未指定, 请使用未设置为id_vars的所有列 var_name [scalar]:指代用于”变量”列的名称。

    5K20

    GPT调教指南:让你的语言模型性能时时SOTA,资源已公开

    代码分解如下: 第10-13行:加载分词器,添加一些特殊的标记,用来表示推文的不同部分,最后加载模型。 请注意,第5行已经定义了模型名称:GPT-2....第16行:用之前定义的函数加载和准备数据集。 第21-24行:为训练过程设置配置。...第8-15行:对于每个测试数据,首先会准备提示,但一个很不同的地方就:不包括情绪标签,因为这是我们希望模型预测的内容。...第33-37行:首先将所有提取的信息合并到pandas dataframe中,提高可读性,然后使用sklearn包中的「f1_score」函数来计算完整模型的性能。...这样能够将输入的推文和情感标签分离到不同的列中,这里分别是「source_text」和「target_text」。 ? 加载和训练模型也非常简单,只需3行代码即可完成。 ?

    1.2K20

    使用R或者Python编程语言完成Excel的基础操作

    自定义快捷键 设置快捷键:为常用操作设置快捷键,提高工作效率。 自定义视图 创建视图:保存当前的视图设置,如行高、列宽、排序状态等。...data <- read.csv("path_to_file.csv") 增加列:使用mutate()添加新列。...目标 找出每个商店每月的总销售额,并按商店和日期排序。...在Python编程语言中 处理表格数据通常使用Pandas库,它提供了非常强大的数据结构和数据分析工具。以下是如何在Python中使用Pandas完成类似于R语言中的操作,以及一个实战案例。...更多数据行 ] 增加列 # 假设我们要基于已有的列增加一个新列 'Total',为 'Sales' 和 'Customers' 之和 for row in data[1:]: # 跳过标题行

    3.4K10

    Python 数据分析与可视化:开启数据洞察之旅(510)

    添加和删除单元格:如果我们需要添加新的单元格,可以点击菜单栏中的 “Insert” -> “Insert Cell Above”(在当前单元格上方插入)或 “Insert Cell Below”(在当前单元格下方插入...在第一行代码中,我们通过索引 'b' 获取了 s2 中对应的数据 200;第二行代码中,我们通过传递一个包含索引 'a' 和 'c' 的列表,获取了这两个索引对应的数据,输出结果是一个包含这两个数据的新...((2, 3)) print(arr5) 在第一行代码中,np.zeros ((3, 4)) 创建了一个形状为 (3, 4) 的全零数组,即 3 行 4 列,每个元素都是 0;第二行代码中,np.ones...而且,这种方式具有很好的扩展性,如果后续有新的数据文件添加到文件夹中,只需要将新文件放入指定文件夹,代码无需修改即可自动处理。...customer_id:客户 ID,用于标识不同的客户。 city:客户所在城市。

    93900

    Stata与Python等效操作与调用

    常规的数据整理包括变量增、删和改、重命名和排序等操作。处理过程中,针对数值型和字符型不同的数据类型,有不同的处理方法。 数值型变量主要是简单的计算,生成新的变量。...在这些情况下,给列起一个名字很有意义,这样就知道要处理的内容。long.unstack('time') 进行 reshape ,它使用索引 'time' 并创建一个新的它具有的每个唯一值的列。...在 Python 和 Pandas 中,DataFrame 索引可以是任何值(尽管您也可以通过行号引用行;参见 .loc 与 iloc )。...在 Stata,缺失值(.)大于每个数字,所以 10 为 True 。在 Python 中,np.nan 不等于任何东西。...但要注意,添加的路径只是临时的添加到了 sys.path,这意味着只有执行脚本的时候才会生效。在脚本运行完毕后,添加的路径会从列表中删除。

    10.6K51

    对比Excel,Python pandas在数据框架中插入行

    在Python中处理数据时,也可以将行插入到等效的数据框架中。 将行添加到数据框架中 pandas没有“插入”功能,我们不能在想象的工作表中右键单击一行,然后选择.insert()。...图2 注意,新添加的行的索引值为0,这是重复的?参见第一行——原始数据框架还有一行索引为0。现在出现了一个问题,有两行的索引为0。如果我们选择索引0,我们将得到两行——原始第一行和新添加的行。...模拟如何在Excel中插入行 在Excel中,当我们向表中插入一行时,实际上只是将所有内容下移一行(插入多行相同)。从技术上讲,我们将原始表“拆分”为两部分,然后将新行放在它们之间。...图5:在pandas中插入行的图形化演示 我们可以模仿上述技术,并在Python中执行相同的“插入”操作。回到我们假设的要求:在第三行(即索引2)之后插入一行。...图6 好了,我们刚刚在第3行之后添加了值为100的新行。大多数情况下,我们会将上述内容转换为函数,以便使代码可重用。

    5.9K20

    使用pandas处理数据获取TOP SQL语句

    TOPSQL语句 TOP SQL获取原理 通过前面的章节我们获取了每个小时v$sqlare视图里面的数据,这里我以monitor_oracle_diskreads 为例,具体数据如下图 ?...上面的排序是没有规律的,我们首先通过SQL语句查询出指定的数据库在15:00至16:00中所有SQL语句,并按照sql_id和sql_time降序排列(时间采用时间戳的形式) select * from...由于我选择时间段间隔一个小时,所以上面查询结果每个sql_id对应两行数据,其中16:00的数据在上面一行 接下来我们要pandas做的事情就是计算每个sql_id对应的disk_reads等栏位的差值...,具体步骤如下: 首先以SQL_ID进行分组 然后遍历各个分组,将各个组的第一个值减去最后一个值,将结果放入列表中供后续使用,这里注意一点,由于后面我们要计算平均每次的值,会有分母为零的状况,所以这里先做判断如果执行次数为...下面为程序的截图: 完整代码会在专题的最后放出,大家可根据代码进行调试来熟悉pandas的功能 ? 下节为如何讲如何在前端显示

    1.9K20

    盘点 Pandas 中用于合并数据的 5 个最常用的函数!

    df0.join(df1) 当索引不同时,join连接默认保留来自左侧 DataFrame 的行。...右侧 DF 中没有左侧 DF 中匹配索引的行,会被删除,如下所示: df0.join(df2) 此外,还可以设置 how 参数,这点与SQL的语法一致。...笛卡尔积 how 参数设置为cross,构成笛卡尔积。是指两个数据框中的数据交叉匹配,出现n1*n2的数据量,具体如下所示。...combine 的特殊之处,在于它接受一个函数参数。此函数采用两个系列,每个系列对应于每个 DataFrame 中的合并列,并返回一个系列作为相同列的元素操作的最终值。听起来很混乱?...append 函数专门用于将行附加到现有 DataFrame 对象,创建一个新对象。我们先来看一个例子。

    3.9K30

    对比Excel,更强大的Python pandas筛选

    图2 发生了什么(原理) 了解事情究竟是怎么发生的很重要,这将帮助我们理解如何在pandas上使用筛选。...上面的代码行翻译为:对于每一行,如果“总部所在国家”是“中国”,则评估为Ture,否则为False。 为了更好地形象化这个思想,让我展示一下在Excel中它是什么样子。...看看下面的Excel屏幕截图,添加了一个新列,名为“是否中国”,还使用了一个简单的IF公式来评估一行是否“总部所在国家”为中国,该公式返回1或0。实际上,我正在检查每一行的值。...当你将这个布尔索引传递到df.loc[]中时,它将只返回有真值的行(即,从Excel筛选中选择1),值为False的行将被删除。...在现实生活中,我们经常需要根据多个条件进行筛选,接下来,我们将介绍如何在pandas中进行一些高级筛选。

    4.3K20

    使用Dash和Plotly进行交互式可视化

    但另一个显而易见的事情是,为每个功能执行相同的绘图工作并滚动每个图表以比较每个功能的结果是一项艰巨的任务。 Plotly是一家数据分析和可视化公司。...如网站所示,可以“在Python中创建交互式,D3和WebGL图表。matplotlib的所有图表类型等等。...在代码的前两行中,只需导入所需的dash库。第三行初始化dash应用程序,第四行使用将在页面上显示的标题标记准备页面布局,最后两行使用调试和端口选项运行服务器。 首先放置所需的元素。...', id='label1') ] ) 保存文件时,将在控制台窗口中看到一个带有新调试器引脚的新行。如果代码中存在问题,将看到错误消息。在这种情况下,需要再次调用该文件并刷新浏览器。...添加简单图表 由于已经足够介绍了交互性,现在是时候添加一些图表了。首先将保持简单,并在每个按钮点击上放置一个带有随机值的条形图。

    8.9K30

    Python与Excel协同应用初学者指南

    通过这种方式,可以将包含数据的工作表添加到现有工作簿中,该工作簿中可能有许多工作表:可以使用ExcelWriter将多个不同的数据框架保存到一个包含多个工作表的工作簿中。...想象一下,作为一名开发人员,将在多个不同的项目上工作,每个项目可能需要具有不同版本的不同软件包。当你的项目有冲突的需求时,虚拟环境就会派上用场。...否则,你会一直在安装一个软件包,然后为一个项目升级,为另一个项目降级。更好的办法是为每个项目提供不同的环境。 现在,终于可以开始安装和导入读取要加载到电子表格数据中的包了。...然后,对于位于该区域的每个单元格,打印该单元格中包含的坐标和值。每行结束后,将打印一条消息,表明cellObj区域的行已打印。...,即标题(cols)和行(txt); 4.接下来,有一个for循环,它将迭代数据并将所有值填充到文件中:对于从0到4的每个元素,都要逐行填充值;指定一个row元素,该元素在每次循环增量时都会转到下一行;

    20.2K20

    Pandas 秘籍:6~11

    检查索引对象 如第 1 章,“Pandas 基础”中所讨论的,序列和数据帧的每个轴都有一个索引对象,用于标记值。 有许多不同类型的索引对象,但是它们都具有相同的共同行为。.../img/00101.jpeg)] 追加来自不同数据帧的列 所有数据帧都可以向自己添加新列。...不管实际的新标签值是多少,新行始终将附加在最后。 即使使用列表分配也可以,但为清楚起见,最好使用字典,以便我们准确地知道与每个值关联的列,如步骤 4 所示。...如步骤 6 中的错误消息所示,使用映射到值的列名字典不足以进行追加操作,如步骤 6 中的错误消息所示。要正确地追加没有行名的字典,您必须将ignore_index参数设置为True。...一起使用将为许多新的和不同的操作打开一扇门,如本章中的几个秘籍所示。

    36.6K10
    领券