它类似于Excel中的电子表格或SQL中的数据库表,提供了行、列的索引,方便对数据进行增删改查。...在Pandas中,可以使用pivot_table函数来创建数据透视表,通过指定行、列和聚合函数来对数据进行分组和聚合。...# 查看数据的基本信息 print(df.info()) 使用info方法打印出数据的基本信息,包括列名称、数据类型以及非空值的数量等。...,并将其赋值给新列OrderDate。...最后,使用groupby方法按照月份对数据进行分组,然后使用sum方法计算每个月的总销售额和利润,并将结果存储在monthly_sales_profit中。
数据量大的情况下,有些字段存在空值 NaN 的可能,这时就需要使用 Pandas 中的 isnull 函数进行查找。...Pandas 和 NumPy 一样,都有常用的统计函数,如果遇到空值 NaN,会自动排除。...基于指定列进行连接 比如我们可以基于 name 这列进行连接。 df3 = pd.merge(df1, df2, on='name') 运行结果: ?...0 1 3.0 4.0 0.0 1 2 0.0 0.0 0.0 5 3 0.0 3.0 0.0 4 我们还可以向前或向后传播非空值。...这可用于对这些组上的大量数据和计算操作进行分组。
一个例子是使用频率和计数的字符串对分类数据进行分组,使用int和float作为连续值。此外,我们希望能够附加标签到列、透视数据等。 我们从介绍对象Series和DataFrame开始。...thresh参数允许您指定要为行或列保留的最小非空值。在这种情况下,行"d"被删除,因为它只包含3个非空值。 ? ? 可以插入或替换缺失值,而不是删除行和列。....fillna()方法返回替换空值的Series或DataFrame。下面的示例将所有NaN替换为零。 ? ?...NaN被上面的“下”列替换为相邻单元格。下面的单元格将上面创建的DataFrame df2与使用“前向”填充方法创建的数据框架df9进行对比。 ? ?...NaN被上面的“上”列替换为相邻单元格。下面的单元格将上面创建的DataFrame df2与使用“后向”填充方法创建的数据框架df10进行对比。 ? ?
数据量大的情况下,有些字段存在空值 NaN 的可能,这时就需要使用 Pandas 中的 isnull 函数进行查找。...Pandas 和 NumPy 一样,都有常用的统计函数,如果遇到空值 NaN,会自动排除。...基于指定列进行连接 比如我们可以基于 name 这列进行连接。 1 df3 = pd.merge(df1, df2, on='name') 运行结果: ?...NaN 5 63 3.0 3.0 NaN 4 将“A”,“B”,“C”和“D”列中的所有NaN元素分别替换为0,1,2和3。...这可用于对这些组上的大量数据和计算操作进行分组。
NaN(非数字的首字母缩写)是一个特殊的浮点值,所有使用标准IEEE浮点表示的系统都可以识别它 pandas将NaN看作是可互换的,用于指示缺失值或空值。...sort_values ()可以以特定的方式对pandas数据进行排序。...通常回根据一个或多个列的值对panda DataFrame进行排序,或者根据panda DataFrame的行索引值或行名称进行排序。 例如,我们希望按学生的名字按升序排序。...假设我们想按性别将值分组,并计算物理和化学列的平均值和标准差。...当我发现更多有用的Pandas函数时,我将尝试不断地对其进行更新。
如下例,我们可以使用pandas.melt()将多列(“Aldi”、“Walmart”、“Costco”)转换为一列(“store”)的值。...combine_first()方法根据 DataFrame 的行索引和列索引,对比两个 DataFrame 中相同位置的数据,优先取非空的数据进行合并。...如果调用combine_first()方法的 df1 中数据非空,则结果保留 df1 中的数据,如果 df1 中的数据为空值且传入combine_first()方法的 df2 中数据非空,则结果取 df2...中的数据,如果 df1 和 df2 中的数据都为空值,则结果保留 df1 中的空值(空值有三种:np.nan、None 和 pd.NaT)。...在以下示例中,创建了一个新的排名列,该列按学生的分数对学生进行排名: import pandas as pd df = pd.DataFrame({'Students': ['John', 'Smith
处理空单元格的方式一致,因此在包含空单元格的区域内使用Excel的AVERAGE公式将获得与应用于具有相同数字和NaN值(而不是空单元格)的系列的mean方法相同的结果。...在数据框架的所有行中获取统计信息有时不够好,你需要更细粒度的信息,例如,每个类别的均值,这是下面的内容。 分组 再次使用我们的示例数据框架df,让我们找出每个大陆的平均分数。...为此,首先按洲对行进行分组,然后应用mean方法,该方法将计算每组的均值,自动排除所有非数字列: 如果包含多个列,则生成的数据框架将具有层次索引,即我们前面遇到的多重索引: 可以使用pandas提供的大多数描述性统计信息...Region)的唯一值,并将其转换为透视表的列标题,从而聚合来自另一列的值。...如果要反过来将列标题转换为单个列的值,使用melt。从这个意义上说,melt与pivot_table函数相反: 这里,提供了透视表作为输入,但使用iloc来去除所有的汇总行和列。
,5,9,np.nan,np.nan]) }) df.columns = ["a","b",'c'] print(df) print(pd.isnull(df)) # 检查数据中非空值出现的情况,...并返回一个布尔值组成的列 print(df.dropna()) # 移除出现空值的行 print(df.dropna(axis=1)) # 移除包含空值的列 print(df.dropna...(axis=1,thresh=4)) #移除空值个数为4的行 print(df.fillna(1)) # 空值部分用1替换 # print(df.fillna(df.mean())) # 空值部分用平均数替换...print(df.apply(np.max,axis = 1)) # 对数据框的每一行取最大值 print(df.apply(np.max)) # 对数据框的每一列取最大值...print(df.corr()) # 得出每一列和其他列的相关系数 print(df.count()) # 得出每一列中的非空值个数 print(
丢失的数据可能以单个值、一个要素中的多个值或整个要素丢失的形式出现。 重要的是,在进行数据分析或机器学习之前,需要我们对缺失的数据进行适当的识别和处理。...如果丢失的数据是由数据帧中的非NaN表示的,那么应该使用np.NaN将其转换为NaN,如下所示。...条形图 条形图提供了一个简单的绘图,其中每个条形图表示数据帧中的一列。条形图的高度表示该列的完整程度,即存在多少个非空值。...接近负1的值表示一列中存在空值与另一列中存在空值是反相关的。换句话说,当一列中存在空值时,另一列中存在数据值,反之亦然。 接近0的值表示一列中的空值与另一列中的空值之间几乎没有关系。...如果我们看一下DRHO,它的缺失与RHOB、NPHI和PEF列中的缺失值高度相关。 热图方法更适合于较小的数据集。 树状图 树状图提供了一个通过层次聚类生成的树状图,并将空相关度很强的列分组在一起。
首先,可以通过isnull 和 notnull 方法查看有哪些NaN值,这两个方法返回的布尔值,指示该值是否是NaN值,结合sum 方法可以获取每列空值的数目以及总数。...axis = 1, thresh = 2)) # axis=1按列操作,thresh 指示这一列或行中有两个或以上的非NaN 值的行或列被保留 通过布尔判断,也是可以实现删除 NaN 的功能。...interpolate() 利用插值函数interpolate()对列向的数据进行填值。实现插值填充数据,那么要求这列上必须得有一些数据才可以,至少2个,会对起点和终点间的NaN进行插值。...600.000000 NaN gake NaN NaN 700 NaN 600.000000 NaN df.interpolate() """ 可以看出,当待填充的列或行符合条件时,会从最近的那个非...外连接,分左外连接,右外连接,全连接,左外连接是左表上的所有行匹配右表,正常能匹配上的取B表的值,不能的取空值,右外连接同理,全连接则是取左并上右表的的所有行,没能匹配上的用空值填充。
这是因为使用str会直接让原本的category类型强制转换为object,所以内存占用又回去了,这是我为什么最开始说要格外小心。 解决方法就是:直接对category本身操作而不是对它的值操作。...用category类列分组时,一旦误操作就会发生意外,结果是Dataframe会被填成空值,还有可能直接跑死。。...当对category列分组时,默认情况下,即使category类别的各个类不存在值,也会对每个类进行分组。 一个例子来说明。...dog 0.501023 gorilla NaN snake NaN Name: float_1, dtype: float64 在groupby中得到了一堆空值...默认情况下,当按category列分组时,即使数据不存在,pandas也会为该类别中的每个值返回结果。
可以使用 df.info() 查看数据的基本信息,包括列名、数据类型和非空值数量;使用 df.describe() 获取数值型数据的统计信息;使用 df.isnull().sum() 检查缺失值。...例如,日期列可能是字符串类型,数值列可能是对象类型。为了确保数据的一致性和准确性,应该对这些列进行适当的数据类型转换。...常见问题:转换失败:如果数据中存在无法转换的值(如空字符串或异常字符),转换可能会失败。可以通过 errors='coerce' 参数将无法转换的值设为 NaN。...通过 groupby() 方法,可以根据一个或多个列对数据进行分组,并对每个分组应用聚合函数(如 mean()、sum()、count() 等)。...常见问题:分组结果为空:如果分组键中存在缺失值,可能会导致分组结果为空。可以通过 dropna=False 参数保留包含缺失值的分组。
Melt Melt可以被认为是“不可透视的”,因为它将基于矩阵的数据(具有二维)转换为基于列表的数据(列表示值,行表示唯一的数据点),而枢轴则相反。...包含值的列将转换为两列:一列用于变量(值列的名称),另一列用于值(变量中包含的数字)。 ? 结果是ID列的值(a,b,c)和值列(B,C)及其对应值的每种组合,以列表格式组织。...诸如字符串或数字之类的非列表项不受影响,空列表是NaN值(您可以使用.dropna()清除它们 )。 ? 在DataFrame df中Explode列“ A ” 非常简单: ?...为了访问狗的身高值,只需两次调用基于索引的检索,例如 df.loc ['dog']。loc ['height']。 要记住:从外观上看,堆栈采用表的二维性并将列堆栈为多级索引。...Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠,将指定级别的索引转换为具有相应值的新DataFrame的列。在表上调用堆栈后再调用堆栈不会更改该堆栈(原因是存在“ 0 ”)。
Pandas 中的缺失数据 Pandas 处理缺失值的方式受到其对 NumPy 包的依赖性的限制,NumPy 包没有非浮点数据类型的 NA 值的内置概念。...默认情况下,dropna()将删除包含空值的所有行: df.dropna() 0 1 2 1 2.0 3.0 5 或者,你可以沿不同的轴删除 NA 值; axis = 1删除包含空值的所有列: df.dropna...这可以通过how或thresh参数来指定,这些参数能够精确控制允许通过的空值数量。 默认值是how ='any',这样任何包含空值的行或列(取决于axis关键字)都将被删除。...你也可以指定how ='all',它只会丢弃全部为空值的行/列: df[3] = np.nan df 0 1 2 3 0 1.0 NaN 2 NaN 1 2.0 3.0 5 NaN 2 NaN 4.0...参数允许你为要保留的行/列指定最小数量的非空值: df.dropna(axis='rows', thresh=3) 0 1 2 3 1 2.0 3.0 5 NaN 这里删除了第一行和最后一行,因为它们只包含两个非空值
序号 方法 说明 1 df.head() 查询数据的前五行 2 df.tail() 查询数据的末尾5行 3 pandas.qcut() 基于秩或基于样本分位数将变量离散化为等大小桶 4 pandas.cut...9 .drop() 删除Series和DataFrame指定行或列索引。 10 .loc[行标签,列标签] 通过标签查询指定的数据,第一个值为行标签,第二值为列标签。...() 针对各列的多个统计汇总,用统计学指标快速描述数据的概要 6 .sum() 计算各列数据的和 7 .count() 非NaN值的数量 8 .mean( ) 计算数据的算术平均值 9 .median(...举例:判断city列的值是否为北京 df_inner['city'].isin(['beijing']) 七、分组的方法 序号 方法 说明 1 DataFrame.groupby() 分组函数 2 pandas.cut...2 .dropna() 删除缺失数据 3 .info() 查看数据的信息,包括每个字段的名称、非空数量、字段的数据类型 4 .isnull() 返回一个同样长度的值为布尔型的对象(Series或DataFrame
对 Series 进行算术运算操作 对 Series 的算术运算都是基于 index 进行的。...在 DataFrame 中缺少数据的位置, Pandas 会自动填入一个空值,比如 NaN或 Null 。...比如,将表中所有 NaN 替换成 20 : ? 当然,这有的时候打击范围太大了。于是我们可以选择只对某些特定的行或者列进行填充。比如只对 'A' 列进行操作,在空值处填入该列的平均值: ?...分组统计 Pandas 的分组统计功能可以按某一列的内容对数据行进行分组,并对其应用统计函数,比如求和,平均数,中位数,标准差等等… 举例来说,用 .groupby() 方法,我们可以对下面这数据表按...Pandas 的数据透视表能自动帮你对数据进行分组、切片、筛选、排序、计数、求和或取平均值,并将结果直观地显示出来。比如,这里有个关于动物的统计表: ?
data.index data.values DataFrame 属性: info:基本信息 columns:列名 size shape len:查看某列的行数 count:查看某列的有效值(非空)的个数...进行切片,对行的指定要使用索引或者条件,对列的索引必须使用列名称,如果有多列,则还需要借助[]将列名称括起来。...columns:列分组键 values:数值计算键 aggfunc: 聚合函数 ,默认为平均值函数 margins: 接收布尔值,表示是否对透视表的行和列进行汇总 dropna:是否删除全为Nan的列,...对于非数值类数据的统计可以使用astype方法将目标特征的数据类型转换为category类别 Pandas 提供了按照变量值域进行等宽分割的pandas.cut()方法。...当我们用数值来进行分类时,进行统计分析时如果不希望作为类别的数值列也被进行统计分析,可以专门将数值类的列转为非数值型数据(参考综合实例–iris 数据集统计分析代码块第 97 行)。
如果你对pandas的学习很感兴趣,你可以参考我们的pandas教程指导博客(http://www.dataquest.io/blog/pandas-python-tutorial/),里面包含两大部分的内容...()相反 df.dropna() 删除包含空值的所有行 df.dropna(axis=1) 删除包含空值的所有列 df.dropna(axis=1,thresh=n) 删除所有小于n个非空值的行 df.fillna...按升序对值排序 df.sort_values(col2,ascending=False) 将col2按降序对值排序 df.sort_values([col1,ascending=[True,False]...df2上的列连接,其中col的行具有相同的值。...df.describe() 数值列的汇总统计信息 df.mean() 返回所有列的平均值 df.corr() 查找数据框中的列之间的相关性 df.count() 计算每个数据框的列中的非空值的数量 df.max
领取专属 10元无门槛券
手把手带您无忧上云