全部包含 一、系列基本功能 编号 属性或方法 描述 1 axes 返回行轴标签列表 2 dtype 返回对象的数据类型(dtype) 3 empty 如果系列为空,则返回True 4 ndim 返回底层数据的维数...[RangeIndex(start=0, stop=4, step=1)] >>> s.dtype ## 返回对象的数据类型(dtype) dtype('float64') >>> s.empty...0.562959 1 1.546666 2 -0.950136 3 -0.067827 dtype: float64 二、DataFrame基本功能 列出比较重要的一些方法 编号 属性或方法...() 数组元素的乘积 11 cumsum() 累计总和 12 cumprod() 累计乘积 注 - 由于DataFrame是异构数据结构。...dtype: float64 std()方法 - 标准差 var() - 方差 返回数字列的Bressel标准偏差(标准差)。
-5.80 dtype: float64 In [80]: df.sum(axis=1) Out[80]: a 1.40 b 2.60 c 0.00 d -0.55 dtype...: float64 In [81]: df.sum(skipna=False, axis=1) Out[81]: a NaN b 2.60 c NaN d -0.55 dtype...非NA值的数量 describe 针对Series或各DataFrame列计算汇总统计 min、max 计算最小值和最大值 argmin、argmax 计算能够获取到最小值和最大值的索引位置(整数)...留个笔记P146 唯一值、值计数以及成员资格 unique方法可以得到Series中唯一值的数据,返回的唯一值是未排序的。value_counts用于计算一个Series中各值出现的概率。...isnull 返回一个含有布尔值的对象,这些布尔值表示哪些值是缺失值/NA,改对象的类型与源类型一样 notnull isnull的否定式 滤除缺失数据 对于Series很简单,只需要dropna可以轻松的滤除缺失数据
对Pandas中常用的描述性函数做一下记录: 拿一个DataFrame: import pandas as pd import numpy as np #Create a Dictionary of...: int64 ''' sum()所有值的和,可以看到字符串被串联起来了 df.sum() ''' Name TomJamesRickyVinSteveMinsuJackLeeDavidGasperBe...dtype: float64 ''' median()所有值的中位数 df.median() ''' Age 29.50 Rating 3.79 dtype: float64 ''...df.std() ''' Age 9.232682 Rating 0.661628 dtype: float64 ''' min() 所有值的最小值 df.min() ''' Name...''' prod() 数组元素的乘积 df.prod() ''' Age 7.158408e+17 Rating 6.320128e+06 dtype: float64 '''
述性统计 Series 与 DataFrame 支持大量计算描述性统计的方法与操作。...() 返回 Series 里所有非空值的唯一值。...对于非数值型 Series 对象, describe() 返回值的总数、唯一值数量、出现次数最多的值及出现的次数。...() 只返回数值列的汇总统计量,如果没有数值列,则只显示类别型的列。...,idxmax() 与 idxmin() 只返回匹配到的第一个值的 Index: In [114]: df3 = pd.DataFrame([2, 1, 1, 3, np.nan], columns=[
和DataFrame之间进行运算的时候,会作用于每行。...= frame.iloc[0] series b 0.0 d 1.0 e 2.0 Name: Utah, dtype: float64 frame - series b...10.0 Name: d, dtype: float64 # axis="index"等价于axis=0 frame.sub(series3, axis="index") b d e...3 4.5 4 3.0 5 2.0 6 4.5 dtype: float64 # 根据出现的顺序返回排名 obj.rank(method='first') 0 6.0 1...重复标签的索引 直接查看索引index的is_unique()属性 索引重复的标签返回多个值 汇总和统计 sum():返回含有列的和的S型数据 传⼊axis='columns’或axis=1将会按⾏进
0.661628 dtype: float64 中间值: Age 29.50 Rating 3.79 dtype: float64 最大值: Age 51...在遍历一个Series时,它被视为类似数组,并且基本迭代产生这些值。其他数据结构(如DataFrame和Panel)遵循 类似于字典的 惯例,即迭代对象的键 。...2 0.884927 3 0.935640 Name: col3, dtype: float64 """ 3)df.iterrows()迭代每行数据 # iterrows()返回产生每个索引值的迭代器...1, dtype: float64 2 col1 -0.053737 col2 0.161058 col3 0.523620 Name: 2, dtype: float64 3 col1...()方法将返回一个迭代器 df = pd.DataFrame(np.random.randn(4,3), columns=['col1','col2','col3']) # print(df,'\n'
描述性统计 Series 与 DataFrame 支持大量计算描述性统计的方法与操作。...() 返回 Series 里所有非空值的唯一值。...对于非数值型 Series 对象, describe() 返回值的总数、唯一值数量、出现次数最多的值及出现的次数。...() 只返回数值列的汇总统计量,如果没有数值列,则只显示类别型的列。...,idxmax() 与 idxmin() 只返回匹配到的第一个值的 Index: In [114]: df3 = pd.DataFrame([2, 1, 1, 3, np.nan], columns=[
Pandas 使用以下约定导入 Pandas import pandas as pd 帮助 help(pd.Series.loc) Pandas 数据结构 序列(Series) 能够保存任何数据类型的一维标记数组...dtype: int64 数据框(DataFrame) 不同类型列的二维标记数据结构,类似 Excel 表格 上面一行为列名 左侧一列为索引 - 姓 名 民族 姓别 年龄 1 贾 小武 汉 男 3 2...df.sort_index() 按轴的值排序 df.sort_values(by='年龄') 从小到大排序的下标 df.rank() 检索 Series / DataFrame 信息 基本信息 df =...() 非 NA 值的数量 df.count() max_speed 3 shield 3 dtype: int64 摘要 总和 df.sum() max_speed 12...']) s + s3 地 NaN 天 NaN 宇 12.0 玄 12.0 黄 5.0 dtype: float64 填充方法的算术运算 借助填充方法自行完成内部数据对齐
3、DataFrame一些性质 索引、切片 我们可以根据列名来选取一列,返回一个Series: frame2['year'] #输出 one 2000 two 2001 three...=False) #输出 a NaN b 1.300 c NaN d -0.275 dtype: float64 #idxmax返回间接统计,是达到最大值的索引 df.idxmax...() #输出 one b two d dtype: object #describe返回的是DataFrame的汇总统计 #非数值型的与数值型的统计返回结果不同 df.describe()...的相关系数 frame1.corrwith(frame1['a']) #输出 a 1.000000 b 0.188742 c 0.483065 dtype: float64 处理缺失数据...上面两个方法返回一个新的Series或者DataFrame,对原数据没有影响,如果想在原数据上进行直接修改,使用inplace参数: data = pd.DataFrame([[1,6.5,3],[1,
按列求总和,代码如下: df.sum() 输出结果如下: A 0.241727 B -0.785350 C -0.547433 D -1.449231 dtype: float64...按列求均值,代码如下: df.mean() 输出结果如下: A 0.030216 B -0.098169 C -0.068429 D -0.181154 dtype: float64...▲图3-15 选取某一列,返回的是Series对象,可以使用df.A,代码如下: df['A'] 输出结果如下: 2016-01-01 -1.142350 2016-01-02 -0.816178...▲图3-18 需要注意的是,如果只有一个时间点,那么返回的值是Series对象,代码如下: df.loc['20160102',['A','C']] 输出结果如下: A -0.816178 C...-0.595195 Name: 2016-01-02 00:00:00, dtype: float64 如果想要获取DataFrame对象,需要使用如下命令: df.loc['20160102':'20160102
注意,返回的Series拥有原DataFrame相同的索引,且其name属性也已经被相应地设置好了。...因此,对返回的Series所做的任何就地修改全都会反映到源DataFrame上。通过Series的copy方法即可指定复制列。...Out[182]: b 0.0 d 1.0 e 2.0 Name: Utah, dtype: float64 默认情况下,DataFrame和Series之间的算术运算会将Series...如果某个索引对应多个值,则返回一个Series;而对应单个值的,则返回一个标量值: In [225]: obj['a'] Out[225]: a 0 a 1 dtype: int64 In...的sum方法将会返回一个含有列的和的Series: In [232]: df.sum() Out[232]: one 9.25 two -5.80 dtype: float64 传入axis
“Series 类” 本节简要介绍了pandas的Series类,它在某种程度上代表了DataFrame类的一个特殊情况,只包含单列数据。...DataFrame 函数的参数 参数 格式 描述 data ndarray/dict/DataFrame DataFrame的数据;dict可以包含Series,ndarray,list等 index...DataFrame 对象的柱状图 Series 类 到目前为止,我们主要使用 pandas 的 DataFrame 类。Series 类是另一个与 pandas 一起提供的重要类。...: float64 In [58]: type(s) Out[58]: pandas.core.series.Series 主要的DataFrame方法也适用于Series对象。...: float64 In [123]: %time res = df.sum(axis=1) # ② CPU times: user 44 ms, sys: 14.9 ms,
NaN two 5.442353 three NaN dtype: float64 In [82]: df.sum(axis=1, skipna=True) Out[82]:...: float64 传递给 apply() 的函数的返回类型会影响 DataFrame.apply 的最终输出类型,默认行为如下: 如果应用的函数返回一个 Series,最终输出是一个 DataFrame...列与应用函数返回的 Series 的索引匹配。 如果应用的函数返回任何其他类型,最终输出是一个Series。...: float64 传递给 apply() 的函数的返回类型会影响默认行为下 DataFrame.apply 的最终输出类型: 如果应用的函数返回一个 Series,最终输出是一个 DataFrame...列匹配应用函数返回的 Series 的索引。 如果应用的函数返回其他任何类型,则最终输出是一个 Series。
Data Analysis) 序列(Series) 数据帧(DataFrame) 重索引 删除条目 索引,选择和过滤 算术和数据对齐 函数应用和映射 排序和排名 带有重复值的轴索引 汇总和计算描述性统计量...清洗数据(构建中) 输入和输出(构建中) from pandas import Series, DataFrame import pandas as pd import numpy as np 序列(...qx NaN Name: foobarbazqux, dtype: float64 ''' 数据帧(DataFrame) DataFrame是表格数据结构,包含列的有序集合。...每列可以是不同的类型。 DataFrame同时具有行索引和列索引,类似于Series的字典。行和列操作大致是对称实现的。 索引DataFrame时返回的列是底层数据的视图,而不是副本。...dtype: float64 ''' 应用函数并返回DataFrame: func_2 = lambda x: Series([x.min(), x.max()], index=['min', 'max
基本操作进阶操作Series 和 Datetime索引数据清洗层次化索引可视化 基本操作 导入 Pandas 库并简写为 pd,并输出版本号 import pandas as pd pd....,求哪一列的和最小 df = pd.DataFrame(np.random.random(size=(5, 5)), columns=list('abcde')) print(df) df.sum()....,返回最大3值的坐标 df = pd.DataFrame(np.random.random(size=(5, 3))) print(df) df.unstack().sort_values()[-3:]...: float64 Series 和 Datetime索引 32.创建Series s,将2015所有工作日作为随机值的索引 dti = pd.date_range(start='2015-01-01'...2.091189 C 1.947163 dtype: float64 47.交换索引等级,新的Series是字典顺序吗?
: float64 传递给apply()的函数的返回类型会影响默认行为下DataFrame.apply的最终输出类型: 如果应用的函数返回一个Series,最终输出是一个DataFrame。...列与应用函数返回的Series的索引匹配。 如果应用的函数返回任何其他类型,最终输出是一个Series。...传递类似列表的内容将生成一个DataFrame输出。...一个方便的dtypes属性用于返回 DataFrame 的每列的数据类型的 Series。...C float64 dtype: object DataFrame.to_numpy()将返回数据类型的最低公共分母,即可以容纳结果同类数据类型的 NumPy 数组。
表 4.6:基本数组统计方法 方法 描述 sum 数组或沿轴的所有元素的总和;长度为零的数组的总和为 0 mean 算术平均值;对于长度为零的数组无效(返回NaN) std, var 分别是标准差和方差...Out[214]: b 0.0 d 1.0 e 2.0 Name: Utah, dtype: float64 默认情况下,DataFrame 和 Series 之间的算术会将 Series...其中大多数属于减少或摘要统计的类别,这些方法从 Series 中提取单个值(如总和或均值),或者从 DataFrame 的行或列中提取一系列值。...的sum方法会返回一个包含列和的 Series: In [269]: df.sum() Out[269]: one 9.25 two -5.80 dtype: float64 传递axis...-0.55 dtype: float64 当整行或整列包含所有 NA 值时,总和为 0,而如果任何值不是 NA,则结果为 NA。
(q=0.75)) 87 print('对df求和',df.sum()) 88 print('求df的中位数,median(),50%分位数',df.median()) 89 print('求df...key1 2.0 106 key2 1.0 107 dtype: float64 108 df的最大值 key1 5.0 109 key2 5.0 110 dtype: float64...111 df的key2列的最大值 5.0 112 统计df的分位数,参数q确定位置 key1 4.25 113 key2 4.25 114 Name: 0.75, dtype: float64...key2 3.0 120 dtype: float64 121 求df的标准差,std() key1 1.290994 122 key2 1.825742 123 dtype: float64...,只能对一列,不能对Dataframe 193 print(df['key2'].value_counts()) 194 195 # 判断Dataframe中的每个元素是否都是在某个列表中 196 print
领取专属 10元无门槛券
手把手带您无忧上云