首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据分析篇 | Pandas基础用法6【完结篇】

以下文章来源于Python大咖谈,作者吱吱不倦的呆鸟 数据类型 大多数情况下,pandas 使用 Numpy 数组、Series 或 DataFrame 里某列的数据类型。...如需了解自行编写与 pandas 配合的扩展类型,请参阅扩展类型,参阅扩展数据类型了解第三方支持库提供的扩展类型。 下表列出了 pandas 扩展类型,参阅列出的文档内容,查看每种类型的详情。...In [331]: dft['A'].dtype Out[331]: dtype('float64') Pandas 对象单列中含多种类型的数据时,该列的数据类型为可适配于各类数据的数据类型,通常为...向上转型一般都会遵循 numpy 的规则。如果操作中涉及两种不同类型的数据,返回的将是更通用的那种数据类型。...loc() 尝试分配当前的数据类型,而 [] 则会从右方获取数据类型并进行覆盖。

4K10

Pandas中文官档~基础用法6

数据类型 大多数情况下,pandas 使用 Numpy 数组、Series 或 DataFrame 里某列的数据类型。...如需了解自行编写与 pandas 配合的扩展类型,请参阅扩展类型,参阅扩展数据类型了解第三方支持库提供的扩展类型。 下表列出了 pandas 扩展类型,参阅列出的文档内容,查看每种类型的详情。...In [331]: dft['A'].dtype Out[331]: dtype('float64') Pandas 对象单列中含多种类型的数据时,该列的数据类型为可适配于各类数据的数据类型,通常为 object...向上转型一般都会遵循 numpy 的规则。如果操作中涉及两种不同类型的数据,返回的将是更通用的那种数据类型。...loc() 尝试分配当前的数据类型,而 [] 则会从右方获取数据类型并进行覆盖。

4.2K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    《Pandas Cookbook》第03章 数据分析入门1. 规划数据分析路线2. 改变数据类型,降低内存消耗3. 从最大中选择最小4. 通过排序选取每组的最大值5. 用sort_values复现nl

    # 列出每列的数据类型,非缺失值的数量,以及内存的使用 In[7]: college.info() pandas.core.frame.DataFrame'> RangeIndex:...MENONLY这列只包含0和1,但是由于含有缺失值,它的类型是浮点型 In[25]: college['MENONLY'].dtype Out[25]: dtype('float64') # 任何数值类型的列...') 689 ValueError: Cannot convert non-finite values (NA or inf) to integer # 对于数据类型,可以替换字符串名:27...从最大中选择最小 # 读取movie.csv,选取'movie_title', 'imdb_score', 'budget'三列 In[34]: movie = pd.read_csv('data/movie.csv...# 将下行区间限制到10%,将tsla_cummax乘以0.9 >>> tsla_trailing_stop = tsla_cummax * .9 >>> tsla_trailing_stop.head

    1.4K20

    Pandas 25 式

    目录 查看 pandas 及其支持项的版本 创建 DataFrame 重命名列 反转行序 反转列序 按数据类型选择列 把字符串转换为数值 优化 DataFrame 大小 用多个文件建立 DataFrame...'').astype('float') 去掉 $,再把该列数据类型改为 float; 3)ufo.csv里的 Time 列,要用 parse_dates=['Time']),解析日期。...要想执行数学计算,要先把这些列的数据类型转换为数值型,下面的代码用 astype() 方法把前两列的数据类型转化为 float。 ?...把 continent 列改为 category 数据类型后,DataFrame 对内存的占用进一步缩减到 2.4 KB。...年龄列有 1 位小数,票价列有 4 位小数,如何将这两列显示的小数位数标准化? 用以下代码让这两列只显示 2 位小数。 ? 第一个参数是要设置的选项名称,第二个参数是 Python 的字符串格式。

    8.4K00

    数据类型合理选择有效减少内存占用

    在用Pandas进行数据分析时,首先对读取的数据清洗操作包括剔除空列、去除不合要求的表头、设置列名等,而经常忽略对数据列设置相应的数据类型,而数据类型设置对大数据集内存占用产生重要影响。...1、优化数据类型减少内存占用 一般来说pandas 它会自动推断出数据类型,如果数值型列数据包括了缺失值,推断数据类型就会自动填充为浮点型。推断的数据类型并不一定是最优,有时候会产生意想不到的结果。...,数据类型分别为object和int64两种,从数据的显示情况来看,DateTime列可以设置为日期类型,重新设置对比如下: import pandas as pd df1 =df.copy() print...那么究竟应该是哪种浮点型类型合适呢,我们来看一下各列最小~最大值范围: df.describe() 从结果来看,我们可以将各列均设置为float16即可满足: df1['Temperature'] =...当字段多手动确实麻烦,自动设置数据集的合理数据类型。 思路:遍历每一列,然后找出该列的最大值与最小值,我们将这些最大最小值与子类型当中的最大最小值去做比较,选择字节数最小的子类型。

    1.7K10

    Pandas 数据类型概述与转换实战

    对于 pandas 来说,它会在许多情况下自动推断出数据类型 尽管 pandas 已经自我推断的很好了,但在我们的数据分析过程中,可能仍然需要显式地将数据从一种类型转换为另一种类型。...本文将讨论基本的 pandas 数据类型(又名 dtypes ),它们如何映射到 python 和 numpy 数据类型,以及从一种 pandas 类型转换为另一种的方法 Pandas 数据类型 数据类型本质上是编程语言用来理解如何存储和操作数据的内部结构...大多数时候,使用 pandas 默认的 int64 和 float64 类型就可以了 下面我们将重点介绍以下 pandas 类型: object int64 float64 datetime64 bool...但这不是 pandas 中的内置数据类型,所以我们使用 float 方法 现在我们可以使用 pandas 的 apply 函数将其应用于 2016 列中的所有值 df['2016'].apply(convert_currency...辅助函数 Pandas 在 astype() 函数和更复杂的自定义函数之间有一个中间地带,这些辅助函数对于某些数据类型转换非常有用 到目前为止,我们没有对日期列或 Jan Units 列做任何事情。

    2.5K20

    《Pandas 1.x Cookbook · 第二版》第03章 创建和持久化DataFrame

    使用dtype参数,将数据类型改为category。...process(chunk) 因为CSV文件不保存数据类型,Pandas需要推断每列的数据类型是什么。如果一列的值都是整数,并且没有缺失值,则Pandas将其认定为int64。...如果一列是数值类型,但不是整数,或存在缺失值,Pandas使用的是float64。这两种数据类型占用的内存比较大。...例如,如果所有数都在200以下,你可以使用一个小的数据类型,比如np.int16(或np.int8,如果都是正数)。 如果某列都是非数值类型,Pandas会将其转换为object类型。...object类型占用内存很多,因为它是将数据以Python字符串存储的,将类型改为category,可以大大节省空间,因为它对每个字符串只存储一次。 更多 如果价格使用int8,会导致丢失信息。

    1.3K30

    数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

    '').astype('float') 去掉 $,再把该列数据类型改为 float; 3)ufo.csv里的 Time 列,要用 parse_dates=['Time']),解析日期。...要想执行数学计算,要先把这些列的数据类型转换为数值型,下面的代码用 astype() 方法把前两列的数据类型转化为 float。 ?...把 continent 列改为 category 数据类型后,DataFrame 对内存的占用进一步缩减到 2.4 KB。...用多个文件建立 DataFrame ~ 按列 上个技巧按行合并数据集,但是如果多个文件包含不同的列,该怎么办? 本例将 drinks 数据集分为了两个 CSV 文件,每个文件都包含 3 列。 ?...年龄列有 1 位小数,票价列有 4 位小数,如何将这两列显示的小数位数标准化? 用以下代码让这两列只显示 2 位小数。 ? 第一个参数是要设置的选项名称,第二个参数是 Python 的字符串格式。

    7.2K20

    Pandas 2.2 中文官方教程和指南(二十四)

    使用高效的数据类型 默认的 pandas 数据类型并不是最节省内存的。特别是对于具有相对少量唯一值的文本数据列(通常称为“低基数”数据),这一点尤为明显。...使用高效的数据类型 默认的 pandas 数据类型不是最节省内存的。对于具有相对少量唯一值的文本数据列(通常称为“低基数”数据),这一点尤为明显。...传递 memory_usage='deep' 将启用更准确的内存使用报告,考虑到所包含对象的完整使用情况。这是可选的,因为进行这种更深层次的内省可能很昂贵。...通过传递 memory_usage='deep' 将启用更准确的内存使用报告,考虑到所包含对象的完整使用情况。这是可选的,因为进行更深入的内省可能会很昂贵。...部分原因是 NumPy 类型层次结构: 类型类 数据类型 numpy.floating float16, float32, float64, float128 numpy.integer int8, int16

    41500

    快速提升效率的6个pandas使用小技巧

    ('titanic') df.head() 查看该数据集各列的数据类型: df.dtypes 可以看到各列的数据类型不太一样,有int、object、float、bool等。...如果说我只要需要数值列,也就是数据类型为int、float的列,可以通过select_dtypes方法实现: df.select_dtypes(include='number').head() 选择除数据类型为...将strings改为numbers 在pandas中,有两种方法可以将字符串改为数值: astype()方法 to_numeric()方法 先创建一个样本dataframe,看看这两种方法有什么不同。...df.dtypes 下面我们用astype()方法将price列的数据类型改为int: df['price'] = df['price'].astype(int) # 或者用另一种方式 df = df.astype...df['sales'] = pd.to_numeric(df['sales'], errors='coerce') df 现在sale列中的-已经被替换成了NaN,它的数据类型也变成了float。

    3.3K10

    【硬核干货】Pandas模块中的数据类型转换

    我们在整理数据的时候,经常会碰上数据类型出错的情况,今天小编就来分享一下在Pandas模块当中的数据类型转换的相关技巧,干货满满的哦!...bytes 数据类型转换 接下来我们开始数据类型的转换,最经常用到的是astype()方法,例如我们将浮点型的数据转换成整型,代码如下 df['float_col'] = df['float_col']...df['string_col'].astype('int16') df['string_col'] = df['string_col'].astype('int32') 然后我们再来看一下转换过后的各个列的数据类型...: object 但是当某一列的数据类型不止一个的时候,转换的过程当中则会报错,例如“mix_col”这一列 df['mix_col'] = df['mix_col'].astype('int') output...('int') df output 最后的则是“money_col”这一列,我们看到当中有货币符号,因此第一步我们要做的则是将这些货币符号给替换掉,然后再进行数据类型的转换,代码如下 df['money_replace

    1.6K30

    Pandas 秘籍:1~5

    不一定是这种情况,因为这些列可能包含整数,布尔值,字符串或其他甚至更复杂的 Python 对象(例如列表或字典)的混合物。 对象数据类型是 Pandas 无法识别为其他任何特定类型的列的全部内容。...准备 此秘籍将大学数据集中的对象列之一的数据类型更改为特殊的 Pandas 分类数据类型,以大大减少其内存使用量。...工作原理 Pandas 将integer和float数据类型默认为 64 位,而不管特定数据帧的最大必要大小如何。...此外,如果其中一个值丢失,则integer数据类型的任何列将自动强制为浮点型: >>> college['MENONLY'].dtype dtype('float64') >>> college['MENONLY...1 和步骤 2 中,每组条件都是从更简单的布尔表达式构建的。

    37.6K10

    如何利用 pandas 根据数据类型进行筛选?

    数据筛选」的问题,先来模拟下数据 如上图所示,基本上都是根据数据类型进行数据筛选,下面逐个解决。...取出所有非整数类型 让我们从第 4 题开始,取出 D 列全部非整数行,其实在 pandas 中可以使用.is_integer() 判断一个元素是否为整数。...所以只要我们将该列转换为时间格式(见习题 8-12)就会将不支持转换的格式修改为缺失值 这样在转换后删除确实值即可 取出非字符行 至于第 1 题,我们可以借助 Python 中 isinstance...直接计算该列的指定范围,并多条件筛选即可。 至此我们就成功利用 pandas 根据 数据类型 进行筛选值。其实这些题都在「pandas进阶修炼300题」中有类似的存在。...当然本文的内容也将再次整理后添加至第 9 章「其他未提及操作中」,点击下方图片即可了解习题详情~ 点击下载「pandas进阶修炼300题」

    1.4K10

    pandas 变量类型转换的 6 种方法

    对于变量的数据类型而言,Pandas除了数值型的int 和 float类型外,还有object ,category,bool,datetime类型。...:列表,想要留下的数据类型,比如float64,int64,bool,object等 exclude:列表,需要排除的数据类型,同上。...转换数据类型比较通用的方法可以用astype进行转换。 pandas中有种非常便利的方法to_numeric()可以将其它数据类型转换为数值类型。...,s是一列数据,具有多种数据类型,现在想把它转换为数值类型。...如果convert_integer也为True,则如果可以将浮点数忠实地转换为整数,则将优先考虑整数dtype 下面看一组示例。 通过结果可以看到,变量都是是创建时默认的类型。

    4.9K20
    领券