首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas实用手册(PART III)

将连续数值转换成分类数据 有时你会想把一个连续数值(numerical)的栏位分成多个groups以方便对每个groups做统计,这时候你可以使用pd.cut函数: 如上所示,使用pd.cut函数建立出来的每个分类族群...用SQL的方式合并两个DataFrames 很多时候你会想要将两个DataFrames 依照某个共通的栏位(键值)合并成单一DataFrame 以整合资讯,比方说给定以下两个DataFrames: DataFrame...: 找出栏位里所有出现过的值 针对特定栏位使用unique函数即可: 分组汇总结果 很多时候你会想要把DataFrame里头的样本依照某些特性分门别类,并依此汇总各组(group)的统计数据。...让我们再次拿出Titanic数据集: 你可以将所有乘客(列)依照它们的Pclass栏位值分组,并计算每组里头乘客们的平均年龄: 你也可以搭配刚刚看过的describe函数来汇总各组的统计数据: 你也可以依照多个栏位分组...对时间数据做汇总 给定一个跟时间相关的DataFrame: 你可以用resample函数来一招不同时间粒度汇总这个时间DataFrame: 此例中将不同年份(Year)的样本分组,并从每一组的栏位A中选出最大值

1.8K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    告别Pandas瓶颈,迎接Dask时代:Python数据处理从此起飞!

    Dask 随着数据科学领域的迅速发展,处理大规模数据集已成为日常任务的一部分。传统的数据处理库,如NumPy和Pandas,在单机环境下表现出色,但当数据集超出内存容量时,它们就显得力不从心。...动态任务调度系统:负责将复杂的计算任务拆分成一系列小的、相互依赖的任务,并在可用的计算资源(如多核CPU、GPU或分布式集群上的节点)上高效地安排这些任务的执行顺序。...你可以使用以下命令进行安装: pip install dask[complete] Dask DataFrame Dask DataFrame与Pandas DataFrame类似,但支持更大的数据集。...你可以从CSV文件、Parquet文件等多种格式加载数据,并执行Pandas中的大多数操作。...mean_value:计算并输出某一列的均值。 result:按列分组后的均值结果。 Dask Array Dask Array允许你处理大于内存的数组,适用于需要处理大规模Numpy数组的情况。

    12610

    15个基本且常用Pandas代码片段

    Pandas提供了强大的数据操作和分析功能,是数据科学的日常基本工具。在本文中,我们将介绍最常用的15个Pandas代码片段。这些片段将帮助简化数据分析任务,从数据集中提取有价值的见解。...df['Age'] = df['Age'].apply(lambda x: x * 2) 5、连接DataFrames 这里的连接主要是行的连接,也就是说将两个相同列结构的DataFrame进行连接...# Concatenate two DataFrames df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']}) df2 = pd.DataFrame...这里的合并指的是列的合并,也就是说根据一个或若干个相同的列,进行合并 # Merge two DataFrames left = pd.DataFrame({'key': ['A', 'B', '...# Exporting DataFrame to CSV df.to_csv('output.csv', index=False) 总结 以上这15个Pandas代码片段是我们日常最常用的数据操作和分析操作

    28810

    Pandas实用手册(PART I)

    在这篇文章里头,我们将接近40个实用的pandas技巧由浅入深地分成6大类别: 建立DataFrame 定制化DataFrame 显示设定 数据清理& 整理 取得想要关注的数据 基本数据处理与转换 简单汇总...建立DataFrame pandas里有非常多种可以初始化一个DataFrame的技巧,以下列出一些我觉得实用的初始化方式。...读入并合并多个CSV档案成单一DataFrame 很多时候因为企业内部ETL或是数据处理的方式(比方说利用Airflow处理批次数据),相同类型的数据可能会被分成多个不同的CSV档案储存。...前面说过很多pandas函数预设的axis参数为0,代表着以行(row)为单位做特定的操作,在pd.concat的例子中则是将2个同样格式的DataFrames依照axis=0串接起来。...为特定DataFrame加点样式 pd.set_option函数在你想要把某些显示设定套用到所有 DataFrames时很好用,不过很多时候你会想要让不同DataFrame有不同的显示设定或样式(styling

    1.8K31

    Pandas图鉴(四):MultiIndex

    Pandas 图鉴系列文章由四个部分组成: Part 1. Motivation:Pandas图鉴(一):Pandas vs Numpy Part 2....Series and Index:Pandas图鉴(二):Series 和 Index Part 3. DataFrames:Pandas图鉴(三):DataFrames Part 4....下图说明了这一概念: 为了给对应列的维度名称留出空间,Pandas将整个标题向上移动: rename_axis Grouping 关于MultiIndex,首先要注意它并不是简单的分组。...在其内部,它只是一个扁平的标签序列,如下图所示: 还可以通过对行标签进行排序来获得同样的groupby效果: sort_index 你甚至可以通过设置一个相应的Pandas option 来完全禁用可视化分组...,没有任何提示(唯一的限制是所有列的标签必须是字符串),产生的文件更小,而且工作速度更快(见基准): df.to_parquet('df.parquet')。

    62120

    对比MySQL,学会在Pandas中实现SQL的常用操作

    在SQL中,您可以添加一个计算列: SELECT *, "小费"/"总费用" as "小费占比" FROM df LIMIT 5; 对于pandas,可以使用DataFrame.assign()的方法追加新列...4.group by分组统计 在Pandas中,SQL的GROUP BY操作是使用类似命名的groupby()方法执行的。...groupby()通常是指一个过程,在该过程中,我们希望将数据集分成多个组,应用某些功能(通常是聚合),然后将各组组合在一起。 常见的SQL操作是获取整个数据集中每个组中的记录数。...例如,假设我们要查看小费金额在一周中的各个天之间有何不同--->agg()允许您将字典传递给分组的DataFrame,从而指示要应用于特定列的函数。...假设我们有两个数据库表,它们的名称和结构与我们的DataFrames相同。现在让我们看一下各种类型的JOIN。

    2.5K20

    针对SAS用户:Python数据分析库pandas

    本文包括的主题: 导入包 Series DataFrames 读.csv文件 检查 处理缺失数据 缺失数据监测 缺失值替换 资源 pandas简介 本章介绍pandas库(或包)。...一个例子是使用频率和计数的字符串对分类数据进行分组,使用int和float作为连续值。此外,我们希望能够附加标签到列、透视数据等。 我们从介绍对象Series和DataFrame开始。...可以认为DataFrames是包含行和列的二维数组索引。好比Excel单元格按行和列位置寻址。 换句话说,DataFrame看起来很像SAS数据集(或关系表)。...name是Series对象很多属性中的一个。 ? DataFrames 如前所述,DataFrames是带有标签的关系式结构。此外,一个单列的DataFrame是一个Series。...像SAS一样,DataFrames有不同的方法来创建。可以通过加载其它Python对象的值创建DataFrames。

    12.1K20

    仅需添加一行代码,即可让Pandas加速四倍 | Pandas on Ray

    因此,Modin据说能够使任意大小的Pandas DataFrames拥有和CPU内核数量同步的线性增长。 ? 图源:Unsplash 现在,我们一起来看看具体操作和代码的实例。...之前提到,Pandas只调用一个CPU来进行数据处理。这是一个很大的瓶颈,特别是对体量更大的DataFrames,资源的缺失更加突出。...之于Pandas DataFrame,一个基本想法就是根据不同的CPU内核数量将DataFrame分成几个不同部分,让每个核单独计算。最后再将结果相加,这在计算层面来讲,运行成本比较低。 ?...Modin可以切割DataFrame的横列和纵列,任何形状的DataFrames都能平行处理。 假如拿到的是很有多列但只有几行的DataFrame。....fillna()是Pandas常用于DataFrame清理的函数。它能找到DataFrame中所有NaN值,再替换成需要的值。这个过程需要很多步骤。

    5.6K30

    使用Plotly创建带有回归趋势线的时间序列可视化图表

    object at 0x7fc04f3b9cd0> """ 以上代码来自pandas的doc文档 在上面的代码块中,当使用每月“M”频率的Grouper方法时,请注意结果dataframe是如何为给定的数据范围生成每月行的...最后,作为DataFrame准备的最后一步,通过“计数”将数据分组——我们在处理Plotly之后会回到这个问题上。...例如,使用plotly_express(px),可以传递整个DataFrames作为参数;但是,使用graph_objects(go)时,输入会更改,并且可能需要使用字典和Pandas系列而不是DataFrames...这一次,请注意我们如何在groupby方法中包含types列,然后将types指定为要计数的列。 在一个列中,用分类聚合计数将dataframe分组。...因为我们在for循环中传递了分组的dataframe,所以我们可以迭代地访问组名和数据帧的元素。在这段代码的最终版本中,请注意散点对象中的line和name参数,以指定虚线。

    5.1K30

    一行代码将Pandas加速4倍

    Modin 如何用 Pandas 并行计算 给定 pandas 中的 DataFrame ,我们的目标是以尽可能快的方式对其执行某种计算或处理。...可以用*.mean()取每一列的平均值,用groupby对数据进行分组,用drop_duplicates()*删除所有重复项,或者使用其他任何内置的 pandas 函数。...在前一节中,我们提到了 pandas 如何只使用一个 CPU 核进行处理。自然,这是一个很大的瓶颈,特别是对于较大的 DataFrames,计算时就会表现出资源的缺乏。...对于一个 pandas 的 DataFrame,一个基本的想法是将 DataFrame 分成几个部分,每个部分的数量与你拥有的 CPU 内核的数量一样多,并让每个 CPU 核在一部分上运行计算。...连接多个 DataFrames 是 panda 中的一个常见操作 — 我们可能有几个或多个包含数据的 CSV 文件,然后必须一次读取一个并连接它们。

    2.9K10

    pandas 时序统计的高级用法!

    用法: pandas.DataFrame.resample() pandas.Series.resample() ------ 返回:Resampler对象 参数: rule:定义重采样的规则,DateOffset..., 重采样也适用相关方法,参考pandas分组8个常用技巧!...df.resample('12H')['C_0'].sum().head(10) 比天颗粒度更小的还可以有分钟、秒、毫秒、微秒、纳秒,可根据实际情况自行设定频率大小。...transform()函数的使用方法可参考pandas transform 数据转换的 4 个常用技巧! 以下对C_0变量进行采样分组内的累加和排序操作。...它最大的优势在于可以链式使用,每次函数执行后的输出结果可以作为下一个函数的参数,形式如:pipe(func1).pipe(func2),参数可以是series、dataFrames、groupBy对象、

    45040

    一行代码将Pandas加速4倍

    Modin 如何用 Pandas 并行计算 给定 pandas 中的 DataFrame ,我们的目标是以尽可能快的方式对其执行某种计算或处理。...可以用*.mean()取每一列的平均值,用groupby对数据进行分组,用drop_duplicates()*删除所有重复项,或者使用其他任何内置的 pandas 函数。...在前一节中,我们提到了 pandas 如何只使用一个 CPU 核进行处理。自然,这是一个很大的瓶颈,特别是对于较大的 DataFrames,计算时就会表现出资源的缺乏。...对于一个 pandas 的 DataFrame,一个基本的想法是将 DataFrame 分成几个部分,每个部分的数量与你拥有的 CPU 内核的数量一样多,并让每个 CPU 核在一部分上运行计算。...连接多个 DataFrames 是 panda 中的一个常见操作 — 我们可能有几个或多个包含数据的 CSV 文件,然后必须一次读取一个并连接它们。

    2.6K10

    数据分析之Pandas VS SQL!

    Pandas简介 Pandas把结构化数据分为了三类: Series,可以理解为一个一维的数组,只是index可以自己改动。 DataFrame,一个类似于表格的数据类型的2维结构化数据。...Panel,3维的结构化数据。 Dataframe实例: ? 对于DataFrame,有一些固有属性: ?...GROUP BY(数据分组) groupby()通常指的是这样一个过程:我们希望将数据集拆分为组,应用一些函数(通常是聚合),然后将这些组组合在一起: ?...默认情况下,join()将联接其索引上的DataFrames。 每个方法都有参数,允许指定要执行的连接类型(LEFT, RIGHT, INNER, FULL)或要连接的列(列名或索引) ?...Pandas: ? 总结: 本文从Pandas里面基本数据结构Dataframe的固定属性开始介绍,对比了做数据分析过程中的一些常用SQL语句的Pandas实现。

    3.2K20

    如何漂亮打印Pandas DataFrames 和 Series

    在今天的文章中,我们将探讨如何配置所需的pandas选项,这些选项将使我们能够“漂亮地打印” pandas DataFrames。...如何漂亮打印Pandas的DataFrames 如果您的显示器足够宽并且能够容纳更多列,则可能需要调整一些显示选项。我将在下面使用的值可能不适用于您的设置,因此请确保对其进行相应的调整。...如何打印所有行 现在,如果您的DataFrame包含的行数超过一定数目,那么将仅显示一些记录(来自df的头部和尾部): import pandas as pd import numpy as np...您可以调整更多显示选项,并更改Pandas DataFrames的显示方式。...总结 在今天的文章中,我们讨论了Pandas的一些显示选项,使您可以根据要显示的内容以及可能使用的显示器,漂亮地打印DataFrame。 熊猫带有一个设置系统,使用户可以调整和自定义显示功能。

    2.5K30

    【数据整理】比pandas还骚的pandasql

    如果你好奇,一点背景 在背后,pandasql 使用该 pandas.io.sql 模块在DataFrame 和 SQLite 数据库之间传输数据。操作用 SQL 执行,返回结果,然后将数据库拆除。...基础 写一些 SQL,通过代替 DataFrames 表针对 pandas DataFrame,并执行它。 ? pandasql 创建数据库、架构、加载数据、并运行你的 SQL。 07....联结 你可以使用正常的 SQL 语法联结 dataframes。 ? 09. WHERE 条件 这是一个 WHERE 字句。 ? 10....以下是使用常见 SQL 功能(例如子查询,排序分组,函数和联合)的一些示例。 ? ? ? 最后的想法 ? pandas 是一个难以置信的数据分析工具,因为它非常易于理解、简洁明了、易表达。...最终,有足够充分的理由来学习的 merge,join,concatenate,melt 的细微差别和其他 pandas 特色的切片和切块数据。查看文档的一些例子。

    4K20
    领券