首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    用过Excel,就会获取pandas数据框架中的值、行和列

    在Excel中,我们可以看到行、列和单元格,可以使用“=”号或在公式中引用这些值。...在Python中,数据存储在计算机内存中(即,用户不能直接看到),幸运的是pandas库提供了获取值、行和列的简单方法。 先准备一个数据框架,这样我们就有一些要处理的东西了。...df.columns 提供列(标题)名称的列表。 df.shape 显示数据框架的维度,在本例中为4行5列。 图3 使用pandas获取列 有几种方法可以在pandas中获取列。...获取1行 图7 获取多行 我们必须使用索引/切片来获取多行。在pandas中,这类似于如何索引/切片Python列表。...要获取前三行,可以执行以下操作: 图8 使用pandas获取单元格值 要获取单个单元格值,我们需要使用行和列的交集。

    19.2K60

    妈妈再也不用担心我忘记pandas操作了

    ) # 查看Series对象的唯一值和计数 df.apply(pd.Series.value_counts) # 查看DataFrame对象中每一列的唯一值和计数 数据选取: df[col] # 根据列名...df.corr() # 返回列与列之间的相关系数 df.count() # 返回每一列中的非空值的个数 df.max() # 返回每一列的最大值 df.min() # 返回每一列的最小值 df.median...> 0.5] # 选择col列的值大于0.5的行 df.sort_values(col1) # 按照列col1排序数据,默认升序排列 df.sort_values(col2, ascending=False...,并计算col2和col3的最大值的数据透视表 df.groupby(col1).agg(np.mean) # 返回按列col1分组的所有列的均值 data.apply(np.mean) # 对DataFrame...中的每一列应用函数np.mean data.apply(np.max,axis=1) # 对DataFrame中的每一行应用函数np.max 其它操作: 改列名: 方法1 a.columns = ['a

    2.2K31

    python数据分析——数据分类汇总与统计

    grouped.sum() # 计算每个组的总和 grouped.mean() # 计算每个组的平均值 grouped.max() # 计算每个组的最大值 过滤操作:根据条件过滤掉某些组或行。...首先,编写一个选取指定列具有最大值的行的函数: 现在,如果对smoker分组并用该函数调用apply,就会得到: top函数在DataFrame的各个片段调用,然后结果由pandas.concat...我们可以用分组平均值去填充NA值: 也可以在代码中预定义各组的填充值。...可以是单个列名、多个列名组成的列表或者数组,表示数据透视后的行的唯一标识。 columns:指定数据透视后的列索引。可以是单个列名、多个列名组成的列表或者数组,表示数据透视后的列的唯一标识。...关键技术:在pandas中透视表操作由pivot_table()函数实现,其中在所有参数中,values、index、 columns最为关键,它们分别对应Excel透视表中的值、行、列。

    4300

    在几秒钟内将数千个类似的电子表格文本单元分组

    “组”列 在本教程中,将使用美国劳工部工资盗窃调查的这个数据集。...第10行从legal_name数据集的列中提取唯一值,并将它们放在一维NumPy数组中。 在第14行,编写了用于构建5个字符N-Grams的函数。使用正则表达式过滤掉一些字符。...第三步:构建一个哈希表,将发现转换为电子表格中的“组”列 现在要构建一个Python字典,其中包含legal_name列中每个唯一字符串的键。 最快的方法是将CSR矩阵转换为坐标(COO)矩阵。...在第39-43行,遍历坐标矩阵,为非零值拉出行和列索引 - 记住它们都具有超过0.8的余弦相似性 - 然后将它们转换为它们的字符串值。 为了澄清,通过一个简单的示例进一步解开第39-43行。...矢量化Panda 最后,可以在Pandas中使用矢量化功能,将每个legal_name值映射到GroupDataFrame中的新列并导出新的CSV。

    1.8K20

    快乐学习Pandas入门篇:Pandas基础

    索引对齐特性 这是Pandas中非常强大的特性,在对多个DataFrame 进行合并或者加减乘除操作时,行和列的索引都重叠的时候才能进行相应操作,否则会使用NA值进行填充。...可以指定n参数显示多少行 df.head()df.tail()df.head(6) 2. unique & nunique unique显示所有的唯一值是什么;nunique显示有多少个唯一值。...对于Series,它可以迭代每一列的值(行)操作;对于DataFrame,它可以迭代每一个列操作。 # 遍历Math列中的所有值,添加!...答:value_counts不会统计缺失值。 3. 与idxmax和nlargest功能相反的是哪两组函数? 答:idxmin和nsmallest。 4....在常用函数一节中,由于一些函数的功能比较简单,因此没有列入,现在将它们列在下面,请分别说明它们的用途并尝试使用。 ? 5. df.mean(axis=1)是什么意思?

    2.4K30

    python数据分析——数据分类汇总与统计

    关键技术: groupby函数和agg函数的联用。在我们用pandas对数据进 行分组聚合的实际操作中,很多时候会同时使用groupby函数和agg函数。...具体的办法是向agg传入一个从列名映射到函数的字典: 只有将多个函数应用到至少一列时,DataFrame才会拥有层次化的列 2.3.返回不含行索引的聚合数据 到目前为止,所有例中的聚合数据都有由唯一的分组键组成的索引...首先,编写一个选取指定列具有最大值的行的函数: 现在,如果对smoker分组并用该函数调用apply,就会得到: top函数在DataFrame的各个片段调用,然后结果由pandas.concat...我们可以用分组平均值去填充NA值: 也可以在代码中预定义各组的填充值。由于分组具有一个name属性,所以我们可以拿来用一下: 四、数据透视表与交叉表 4.1....关键技术:在pandas中透视表操作由pivot_table()函数实现,其中在所有参数中,values、index、 columns最为关键,它们分别对应Excel透视表中的值、行、列。

    82710

    竟然说pandas中的join比merge快5倍?我带你看源码吧

    这样子我们才能进入 pandas 源码里面 接着,在 merge 函数那一行打开一个断点 执行调试 代码会停在断点的行,接着我们要点击控制菜单中的下一步(也可以用快捷键)。...结果就会进入这段代码: 这是一个 python 的遍历代码,一个个去匹配 key 值 而 join 函数执行的却是: 直接调用行索引对象的函数 了解这些要点,相信聪明的你也知道要这样子修改实验代码:...显然,有什么东西在第二次运行的时候,得到了优化。 在之前的源码调试中,我们得知,其实两个表按行索引关联,最核心的计算就是行索引对象的 join 函数。 按这个原理以及之前的调试方式,可以找到一个属性。...具体过程我就不再啰嗦了,直接给出验证结果: 在 join 的过程中,有一个判断逻辑,如果行索引的值都是唯一的,那么会进行一些操作。 直接看看它的源码 缓存了结果。...道理很简单, pandas 怎么可以知道一个行索引的值是否唯一?显然要遍历一次数据。这个过程在大量数据的时候成本很高。由于索引对象是不可变的,所以可以缓存结果。

    1.2K30

    Pandas速查手册中文版

    (1)官网: Python Data Analysis Library (2)十分钟入门Pandas: 10 Minutes to pandas 在第一次学习Pandas的过程中,你会发现你需要记忆很多的函数和方法...Series对象的唯一值和计数 df.apply(pd.Series.value_counts):查看DataFrame对象中每一列的唯一值和计数 数据选取 df[col]:根据列名,并以Series的形式返回列...pd.notnull():检查DataFrame对象中的非空值,并返回一个Boolean数组 df.dropna():删除所有包含空值的行 df.dropna(axis=1):删除所有包含空值的列 df.dropna...(axis=1,thresh=n):删除所有小于n个非空值的行 df.fillna(x):用x替换DataFrame对象中所有的空值 s.astype(float):将Series中的数据类型更改为float...和col3的最大值的数据透视表 df.groupby(col1).agg(np.mean):返回按列col1分组的所有列的均值 data.apply(np.mean):对DataFrame中的每一列应用函数

    12.2K92

    Pandas 秘籍:1~5

    value_counts方法也产生一个序列,但具有原始序列的唯一值作为索引,计数作为其值。 在步骤 5 中,size和count返回标量值,但是shape返回单项元组。...在本机 Python 中,这将需要一个for循环在应用操作之前遍历序列中的每个项目。...关系数据库的一种非常常见的做法是将主键(如果存在)作为第一列,并在其后直接放置任何外键。 主键唯一地标识当前表中的行。 外键唯一地标识其他表中的行。...在分析期间,可能首先需要找到一个数据组,该数据组在单个列中包含最高的n值,然后从该子集中找到最低的m基于不同列的值。...通过排序选择每个组中的最大值 在数据分析期间执行的最基本,最常见的操作之一是选择包含组中某个列的最大值的行。 例如,这就像在内容分级中查找每年评分最高的电影或票房最高的电影。

    37.6K10

    数据导入与预处理-第6章-02数据变换

    等宽法 等宽法将属性的值域从最小值到最大值划分成具有相同宽度的区间,具体划分多少个区间由数据本身的特点决定,或者由具有业务经验的用户指定 等频法 等频法将相同数量的值划分到每个区间,保证每个区间的数量基本一致...基于列值重塑数据(生成一个“透视”表)。使用来自指定索引/列的唯一值来形成结果DataFrame的轴。此函数不支持数据聚合,多个值将导致列中的MultiIndex。...,将出售日期一列的唯一值变换成行索引。...,商品一列的唯一数据变换为列索引: # 将出售日期一列的唯一数据变换为行索引,商品一列的唯一数据变换为列索引 new_df = df_obj.pivot(index='出售日期', columns='商品名称...,这一过程中主要对各分组应用同一操作,并把操作后所得的结果整合到一起,生成一组新数据。

    19.3K20

    20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

    我们有三个不同的城市,在不同的日子进行测量。我们决定将这些日子表示为列中的行。还将有一列显示测量值。...我们也可以使用melt函数的var_name和value_name参数来指定新的列名。 11. Explode 假设数据集在一个观测(行)中包含一个要素的多个条目,但您希望在单独的行中分析它们。...Nunique Nunique统计列或行上的唯一条目数。它在分类特征中非常有用,特别是在我们事先不知道类别数量的情况下。让我们看看我们的初始数据: ?...如果axis参数设置为1,nunique将返回每行中唯一值的数目。 13. Lookup 'lookup'可以用于根据行、列的标签在dataframe中查找指定值。假设我们有以下数据: ?...inner:仅在on参数指定的列中具有相同值的行(如果未指定其它方式,则默认为 inner 方式) outer:全部列数据 left:左一dataframe的所有列数据 right:右一dataframe

    5.7K30

    Pandas 秘籍:6~11

    在第 4 步到第 6 步中已将它们删除。select_dtypes对于具有许多列的非常宽的数据帧极为有用。 在步骤 7 中,idxmax遍历所有列以找到每个列的最大值的索引。 它将结果作为序列输出。...为此,我们从max_cols序列的值中收集所有唯一的学校名称。 最后,在步骤 8 中,我们使用.loc索引器根据索引标签选择行,在第一步中将其作为学校名称。 此过滤器仅适用于具有最大值的学校。...准备 在本秘籍中,我们通过直接在其上调用方法以及遍历其每个组来检查分组对象本身。...在遍历组时可以做的一件有趣的事情是直接在笔记本中显示每个组的几行。 为此,可以使用IPython.display模块中的打印函数或display函数。...在第 5 步中,通过将每个值除以其行总数,可以找到每个组在所有组中占总数的百分比。 默认情况下,Pandas 会自动按对象的列对齐对象,因此我们不能使用除法运算符。

    34K10
    领券