前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python之Pandas中Series、DataFrame实践

Python之Pandas中Series、DataFrame实践

作者头像
王小雷
发布2018-01-02 14:08:57
3.9K0
发布2018-01-02 14:08:57
举报
文章被收录于专栏:王小雷

Python之Pandas中Series、DataFrame实践

1. pandas的数据结构Series
代码语言:javascript
复制
1.1 Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。
1.2 Series的字符串表现形式为:索引在左边,值在右边。
2. pandas的数据结构DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值的)。
代码语言:javascript
复制
dataframe中的数据是以一个或者多个二位块存放的(而不是列表、字典或者别的一维数据结构)。
3.索引对象
代码语言:javascript
复制
pandas的索引对象负责管理轴标签和其他元素(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index。
Index对象是不可修改的。
4. pandas的主要Index对象
代码语言:javascript
复制
Index       最泛化的Index对象,将轴标签表示为一个由Python对象组成的NumPy数组
Int64Index  针对整数的特殊Index
MultiIndex  “层次化”索引对象,表示单个轴上的多层索引。可以看做由元数组组成的数组
DatetimeIndex   存储纳秒级时间戳(用NumPy的datetime64类型表示)
PeriodIndex 针对Period数据(时间间隔)的特殊Index
5. 操作Series和DataFrame中的数据的基本手段
代码语言:javascript
复制
5.1 重新索引 reindex
5.2 丢弃指定轴上的项 drop
5.3 索引、选取和过滤(.ix)
5.4 算数运算和数据对齐
    DataFrame和Series之间的算数运算默认情况下会将Series的索引项 匹配到DataFrame的列,然后沿着行一直向下广播。(如果希望匹配行且在列上广播,则必须使用算数运算方法)
6. 函数应用和映射
代码语言:javascript
复制
NumPy的ufuncs(元素级数组方法)也可用操作pandas对象
DataFrame中将函数应用到由各列或各行所行成的一维数组上可用apply方法。
7. 排序和排名
代码语言:javascript
复制
要对行或列索引进行排序(按字典顺序),可使用sort_index方法,它将返回一个已排序的新对象;对于DataFrame,则可以根据任意一个轴上的索引进行排序。
8. 汇总和计算描述统计
代码语言:javascript
复制
8.1 相关系数corr与协方差cov
8.2 成员资格isin,用于判断矢量化集合的成员资格,可用于选取Series或DataFrame列数据的子集。
9. 处理缺失数据(Missing data)
代码语言:javascript
复制
9.1 pandas使用浮点值NaN(Not a Number)表示浮点和非浮点数组中的缺失数据。
9.2 NA处理办法
    dropna      根据各标签值中是否存在缺失数据对轴标签进行过滤,可通过阀值调节对缺失值的容忍度
    fillna      用指定的或插值方法(如ffil或bfill)填充缺失数据
    isnull      返回一个含有布尔值的对象,这些布尔值表示哪些值是缺失值/NA,该对象的类型与源类型一样
    notnull     isnull的否定式
10. 层次化索引
代码语言:javascript
复制
层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。抽象点说,它是你能以低维度形式处理高维度数据。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Python之Pandas中Series、DataFrame实践
    • 1. pandas的数据结构Series
      • 2. pandas的数据结构DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值的)。
        • 3.索引对象
          • 4. pandas的主要Index对象
            • 5. 操作Series和DataFrame中的数据的基本手段
              • 6. 函数应用和映射
                • 7. 排序和排名
                  • 8. 汇总和计算描述统计
                    • 9. 处理缺失数据(Missing data)
                      • 10. 层次化索引
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档