首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 2.2 中文官方教程和指南(十七)

[15]: True 注意 检查索引是否唯一对于大型数据集来说是比较昂贵的。...这意味着,从 Series 的访问器的方法和属性返回的值与将该 Series 转换为 category 类型后的访问器的方法和属性返回的值将相等: In [165]: ret_s = str_s.str.contains...=)与与分类数据长度相同的列表对象(列表、Series、数组等)进行比较。 所有对另一个分类系列进行比较(==、!...唯一的区别是返回类型(用于获取)和只有已在categories中的值才能被赋值。 获取 如果切片操作返回DataFrame或类型为Series的列,则category dtype 将被保留。...这意味着,从Series的访问器上的方法和属性返回的值,以及将这个Series转换为category类型后的访问器上的方法和属性返回的值将是相等的: In [165]: ret_s = str_s.str.contains

46810

Pandas 2.2 中文官方教程和指南(十五)

StringDtype 扩展类型。 我们建议使用StringDtype来存储文本数据。 在 pandas 1.0 之前,object dtype 是唯一的选项。...在这里,我们删除前导和尾随空格,将所有名称转换为小写,并用下划线替换任何剩余的空格: In [36]: df.columns = df.columns.str.strip().str.lower().str.replace...请注意,具有字符串.categories的category类型Series与字符串类型的Series相比存在一些限制(例如,如果s是category类型的Series,则无法将字符串相加:s + " "...请注意,具有字符串.categories的category类型的Series与字符串类型的Series相比存在一些限制(例如,如果s是category类型的Series,则无法将字符串添加到彼此:s +...此外,对list类型元素进行操作的.str方法在此类Series上不可用。 警告 系列的类型是推断的,允许的类型为(即字符串)。 一般来说,.str访问器仅用于处理字符串。

23610
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据分析工具Pandas1.什么是Pandas?2.Pandas的数据结构SeriesDataFrame3.Pandas的索引操作索引对象IndexSeries索引DataFrame索引高级索引:标签

    一个强大的分析和操作大型结构化数据集所需的工具集 基础是NumPy,提供了高性能矩阵的运算 提供了大量能够快速便捷地处理数据的函数和方法 应用于数据挖掘,数据分析 提供数据清洗功能 ---- 2.Pandas...: float64 DataFrame DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同类型的值。...类似多维数组/表格数据 (如,excel, R中的data.frame) 每列数据可以是不同的类型 索引包括列索引和行索引 1....通过列索引获取列数据(Series类型) df_obj[col_idx] 或 df_obj.col_idx 示例代码: # 通过列索引获取列数据 print(df_obj2['A']) print...[0:2, 0]) # 注意和df_obj.loc[0:2, 'a']的区别 运行结果: b 1 c 2 dtype: int64 b 1 c 2 dtype: int64 0

    3.9K20

    Pandas 2.2 中文官方教程和指南(十一·一)

    要从主要的 pandas 数据结构构造这些,您可以在dtype参数中传入类型后跟[pyarrow]的字符串,例如"int64[pyarrow]"。...下表显示了使用[]对 pandas 对象进行索引时的返回类型值: 对象类型 选择 返回值类型 Series series[label] 标量值 DataFrame frame[colname] 与 colname...警告 当使用.loc设置Series和DataFrame时,pandas 会对齐所有轴。 这不会修改df,因为列对齐是在赋值之前进行的。...警告 当您提供与索引类型不兼容(或可转换)的切片器时,.loc是严格的。例如,在DatetimeIndex中使用整数。这将引发TypeError。...一般来说,任何可以使用numexpr计算的操作都将被计算。 与list对象一起使用==运算符的特殊用法 使用==/!=将值列表与列进行比较与使用in/not in类似。

    40710

    Pandas 2.2 中文官方教程和指南(二十四)

    这是对提高性能的补充,后者侧重于加快适���内存的数据集的分析。 加载更少的数据 假设我们在磁盘上的原始数据集有许多列。...使用高效的数据类型 默认的 pandas 数据类型并不是最节省内存的。特别是对于具有相对少量唯一值的文本数据列(通常称为“低基数”数据),这一点尤为明显。...: int64 我们可以进一步将数值列降级为它们的最小类型,使用pandas.to_numeric()。...使用高效的数据类型 默认的 pandas 数据类型不是最节省内存的。对于具有相对少量唯一值的文本数据列(通常称为“低基数”数据),这一点尤为明显。...: int64 我们可以进一步将数值列降级为它们的最小类型,使用pandas.to_numeric()。

    41500

    Pandas 2.2 中文官方教程和指南(十二·二)

    在 pandas 对象的reindex()和align()方法中使用参数level对值进行广播是很有用的。...='category', name='B') 警告 对 CategoricalIndex 进行的重塑和比较操作必须具有相同的类别,否则将引发 TypeError。...的行为类似于一个具有 int64 数据类型的 Index,对 RangeIndex 进行操作,其结果无法由 RangeIndex 表示,但应具有整数数据类型,并将转换为具有 int64 的 Index...='category', name='B') 警告 对CategoricalIndex进行重塑和比较操作必须具有相同的类别,否则将引发TypeError。...的行为类似于具有 int64 dtype 的 Index,对 RangeIndex 的操作,其结果不能由 RangeIndex 表示,但应该具有整数 dtype,将转换为具有 int64 的 Index

    53110

    00.数据结构关于浮点数运算的越界问题1.数据结构2.Pandas的两种常用数据结构3.Series系列4.DataFrame数据框

    定义:如何对其定义? 限制:使用期有何限制? 访问:访问其内数据的方式是什么? 修改: 对其增删查改的方法什么?...2.Pandas的两种常用数据结构 类型 注释 Series 系列 DataFrame 数据框 使用前需要将pandas 模块引入 from pandas import Series, DataFrame...import pandas as pd 3.Series系列 类似一维数组(ndarray)的对象,由一组数据(各种NumPy数据类型)以及与之相关的数据标签(索引)组成,用于存储一行或一列数据。...index A 0 张三 1 李四 2 王五 Series对象本质上是NumPy的数组,因此NumPy的数组处理函数可以直接对Series使用。...但是Series除了可以使用位置作为下标存取元素之外,还可以使用标签下标存取元素,这一点和字典相似。

    1.1K10

    Pandas 2.2 中文官方教程和指南(十六)

    ”的值 pandas 使用不同的标记值来表示缺失值(也称为 NA),具体取决于数据类型。...is pd.NA Out[24]: True 目前,pandas 尚未默认使用那些使用 NA 的数据类型,如 DataFrame 或 Series,因此您需要明确指定 dtype。...这在从 IO 方法读取数据集并推断数据类型后特别有帮助。 在这个例子中,虽然所有列的 dtype 都已更改,但我们仅展示前 10 列的结果。...这在从 IO 方法中读取数据集并推断数据类型后特别有帮助。 在这个例子中,虽然所有列的数据类型都被更改,但我们展示了前 10 列的结果。...a Int64 b boolean dtype: object 算术和比较操作中的传播 一般来说,在涉及NA的操作中,缺失值会传播。

    30110

    Pandas 数据类型概述与转换实战

    大多数时候,使用 pandas 默认的 int64 和 float64 类型就可以了 下面我们将重点介绍以下 pandas 类型: object int64 float64 datetime64 bool...以上都是 Pandas 为我们自动分配的数据类型,有几个问题: Customer Number 是 float64 但应该是 int64 2016 和 2017 列存储为 object,而不是诸如...Customer Number 列的类型转换 看起来很简单,让我们尝试对 2016 列做同样的事情,并将其转换为浮点数: 同样的,转换 Jan Units 列 转换异常了~ 上面的情况中,数据中包含了无法转换为数字的值...但这不是 pandas 中的内置数据类型,所以我们使用 float 方法 现在我们可以使用 pandas 的 apply 函数将其应用于 2016 列中的所有值 df['2016'].apply(convert_currency...np.where() 方法对许多类型的问题都很有用,所以我们选择在这里使用 基本思想是使用 np.where() 函数将所有“Y”值转换为 True 并将其他所有值转换为 False df["Active

    2.5K20

    python数据分析和可视化——一篇文章足以(未完成)

    数据的类型。Numpy支持的数据类型比Python内置的基本类型要多得多,可以通过numpy.dtype来查看ndarray的数据类型。  秩(轴)。...=np.float32) print("数组a中的数据类型是:", ndarray_a.dtype) print("数组b中的数据类型是:", ndarray_b.dtype) print("数组a中的秩是... Pandas使用浮点值NaN(Not a umber)表示浮点和非浮点数组中的缺失数据  Pandas提供了专门的处理缺失数据的函数: 函数 说明 dropna 根据各标签的值中是否存在缺失数据对轴标签进行过滤...在Pandas中,主要使用从Series派生出来的子类TimeStamp: 最基本的时间序列类型就是以时间戳(TimeStamp)为index元素的Series类型。...3种, 分别是一般文本文件、 CSV文件Excel文件, Pandas提供了便利的CSV和Excel文件读写方式:   使用to_csv()函数将DataFrame对象写入到CSV文件。

    89310

    Pandas 2.2 中文官方教程和指南(十一·二)

    当你使用链式索引时,索引操作的顺序和类型部分地确定结果是原始对象的切片,还是切片的副本。...注意 在应用可调用对象之前,将元组键解构为行(和列)索引,因此无法从可调用对象中返回元组以索引行和列。 从具有多轴选择的对象中获取值使用以下表示法(以.loc为例,但.iloc也适用)。...警告 当您提供与索引类型不兼容(或可转换)的切片器时,.loc是严格的。例如,在DatetimeIndex中使用整数。这将引发TypeError。...in运算符 query()还支持对 Python 的in和not in比较运算符的特殊用法,提供了对Series或DataFrame的isin方法的简洁语法。...当您使用链式索引时,索引操作的顺序和类型部分确定结果是原始对象的切片,还是切片的副本。

    25210

    Pandas中文官档 ~ 基础用法1

    大部分类型的底层数组都是 numpy.ndarray。不过,pandas 与第三方支持库一般都会扩展 Numpy 类型系统,添加自定义数组(见数据类型)。...详情见数据类型。 to_numpy() 可以控制 numpy.ndarray 生成的数据类型。...以带时区的 datetime 为例,Numpy 未提供时区信息的 datetime 数据类型,pandas 则提供了两种表现形式: 一种是带 Timestamp 的 numpy.ndarray,提供了正确的...对于异质型数据,即 DataFrame 列的数据类型不一样时,就不是这种操作模式了。与轴标签不同,不能为值的属性赋值。...::: tip 注意 处理异质型数据时,输出结果 ndarray 的数据类型适用于涉及的各类数据。若 DataFrame 里包含字符串,输出结果的数据类型就是 object。

    1.9K30

    Python科学计算:Pandas

    数据结构:Series和DataFrame Series是个定长的字典序列。说是定长是因为在存储的时候,相当于两个ndarray,这也是和字典结构最大的不同。...    1b    2c    3d    4dtype: int64 DataFrame类型数据结构类似数据库表。...它包括了行索引和列索引,我们可以将DataFrame 看成是由相同索引的Series组成的字典类型。...格式问题 更改数据格式 这是个比较常用的操作,因为很多时候数据格式不规范,我们可以使用astype函数来规范数据格式,比如我们把Chinese字段的值改成str类型,或者int64可以这么写: df2[...'Chinese']=df2['Chinese'].str.strip('$') 大小写转换 大小写是个比较常见的操作,比如人名、城市名等的统一都可能用到大小写的转换,在Python里直接使用upper

    2K10

    Pandas中文官档 ~ 基础用法1

    大部分类型的底层数组都是 numpy.ndarray。不过,pandas 与第三方支持库一般都会扩展 Numpy 类型系统,添加自定义数组(见数据类型)。...详情见数据类型。 to_numpy() 可以控制 numpy.ndarray 生成的数据类型。...以带时区的 datetime 为例,Numpy 未提供时区信息的 datetime 数据类型,pandas 则提供了两种表现形式: 一种是带 Timestamp 的 numpy.ndarray,提供了正确的...对于异质型数据,即 DataFrame 列的数据类型不一样时,就不是这种操作模式了。与轴标签不同,不能为值的属性赋值。...::: tip 注意 处理异质型数据时,输出结果 ndarray 的数据类型适用于涉及的各类数据。若 DataFrame 里包含字符串,输出结果的数据类型就是 object。

    2.8K20

    Pandas中文官档 基础用法1

    大部分类型的底层数组都是 numpy.ndarray。不过,pandas 与第三方支持库一般都会扩展 Numpy 类型系统,添加自定义数组(见数据类型)。...详情见数据类型。 to_numpy() 可以控制 numpy.ndarray 生成的数据类型。...以带时区的 datetime 为例,Numpy 未提供时区信息的 datetime 数据类型,pandas 则提供了两种表现形式: 一种是带 Timestamp 的 numpy.ndarray,提供了正确的...对于异质型数据,即 DataFrame 列的数据类型不一样时,就不是这种操作模式了。与轴标签不同,不能为值的属性赋值。...::: tip 注意 处理异质型数据时,输出结果 ndarray 的数据类型适用于涉及的各类数据。若 DataFrame 里包含字符串,输出结果的数据类型就是 object。

    1.7K20
    领券