首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    《Pandas Cookbook》第02章 DataFrame基本操作1. 选取多个DataFrame列2. 对列名进行排序3. 在整个DataFrame上操作4. 串联DataFrame方法5. 在

    选取多个DataFrame列 # 用列表选取多个列 In[2]: movie = pd.read_csv('data/movie.csv') movie_actor_director...串联DataFrame方法 # 使用isnull方法将每个值转变为布尔值 In[30]: movie = pd.read_csv('data/movie.csv') movie.isnull...Series再使用sum,返回整个DataFrame的缺失值的个数,返回值是个标量 In[32]: movie.isnull().sum().sum() Out[32]: 2654 # 判断整个DataFrame...有没有缺失值,方法是连着使用两个any In[33]: movie.isnull().any().any() Out[33]: True 原理 # isnull返回同样大小的DataFrame,但所有的值变为布尔值...在DataFrame上使用运算符 # college数据集的值既有数值也有对象,整数5不能与字符串相加 In[37]: college = pd.read_csv('data/college.csv'

    5.5K40

    DataFrame和Series的使用

    DataFrame和Series是Pandas最基本的两种数据结构 可以把DataFrame看作由Series对象组成的字典,其中key是列名,值是Series Series和Python...df按行加载部分数据:先打印前5行数据 观察第一列 print(df.head()) 最左边一列是行号,也就是DataFrame的行索引 Pandas默认使用行号作为行索引。...传入的是索引的序号,loc是索引的标签 使用iloc时可以传入-1来获取最后一行数据,使用loc的时候不行 loc和iloc属性既可以用于获取列数据,也可以用于获取行数据 df.loc[[行],[列]...]] df.loc[:,[0,2,4,-1]] df.iloc[:,0:6:2] # 所有行, 第0 , 第2 第4列 可以通过行和列获取某几个格的元素 分组和聚合运算 先将数据分组 对每组的数据再去进行统计计算如...,求平均,求每组数据条目数(频数)等 再将每一组计算的结果合并起来 可以使用DataFrame的groupby方法完成分组/聚合计算 df.groupby(by='year')[['lifeExp','

    1.3K10

    pySpark | pySpark.Dataframe使用的坑 与 经历

    笔者最近在尝试使用PySpark,发现pyspark.dataframe跟pandas很像,但是数据操作的功能并不强大。...1.1 内存不足 报错: tasks is bigger than spark.driver.maxResultSize 一般是spark默认会限定内存,可以使用以下的方式提高: set by SparkConf...1.2.2 重置toPandas() 来自joshlk/faster_toPandas.py的一次尝试,笔者使用后,发现确实能够比较快,而且比之前自带的toPandas()还要更快捷,更能抗压. import...RDD 内部的数据集合在逻辑上(以及物理上)被划分成多个小集合,这样的每一个小集合被称为分区。像是下面这图中,三个 RDD,每个 RDD 内部都有两个分区。 ?...比如说像是下面图介个情况,多个分区并行计算,能够充分利用计算资源。

    8.7K21

    业界使用最多的Python中Dataframe的重塑变形

    因此,必须确保我们指定的列和行没有重复的数据,才可以用pivot函数 pivot_table方法实现了类似pivot方法的功能 它可以在指定的列和行有重复的情况下使用 我们可以使用均值、中值或其他的聚合函数来计算重复条目中的单个值...对于不用的列使用通的统计方法 使用字典来实现 df_nodmp5.pivot_table(index="ad_network_name",values=["mt_income","impression"...假设我们有一个在行列上有多个索引的DataFrame。...from pandas import DataFrame import pandas as pd import numpy as np # 建立多个行索引 row_idx_arr = list(zip...['r-00', 'r-01'])) row_idx = pd.MultiIndex.from_tuples(row_idx_arr) print "行索引:" print row_idx # 建立多个列索引

    2.8K10
    领券