首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python替代Excel Vba系列(三):pandas处理不规范数据

因此,本文将使用稍微复杂的数据做演示,充分说明 pandas 是如何灵活处理各种数据。 本文要点: 使用 pandas 处理不规范数据。 pandas 中的索引。...,那么最难安装的 pandas 和 numpy 都不会是问题。....options(np.array),因此我们把整块数据加载到 numpy 的数组中。numpy 数组可以很方便做各种切片。 header=arr[2] , 取出第3行作为标题。...这里不能直接转整数,因为 python 怕有精度丢失,直接转换 int 会报错。因此先转 float,再转 int。...---- 理解了索引,那么就要说一下如何变换行列索引。 pandas 中通过 stack 方法,可以把需要的列索引转成行索引。 用上面的数据作为例子,我们需要左边的行索引显示每天上下午的气温和降雨量。

5K30

在 Python 中,通过列表字典创建 DataFrame 时,若字典的 key 的顺序不一样以及部分字典缺失某些键,pandas 将如何处理?

当通过列表字典来创建 DataFrame 时,每个字典通常代表一行数据,字典的键(key)对应列名,而值(value)对应该行该列下的数据。如果每个字典中键的顺序不同,pandas 将如何处理呢?...numpy 是一个用于处理数组(特别是数值型数组)的库,提供了许多数学函数。...df = pd.DataFrame(data, dtype=np.float64):这行代码使用 pandas 的 DataFrame 函数将 data 列表转换为 DataFrame。...总的来说,这段代码首先导入了所需的库,然后创建了一个包含多个字典的列表,最后将这个列表转换为 DataFrame,并输出查看。...输出结果将展示如下: 我们从上面的示例就容易观察到: 生成的 DataFrame 中的列顺序遵循了首次出现键的顺序。

13500
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Pandas图鉴(三):DataFrames

    Pandas 给 NumPy 数组带来的两个关键特性是: 异质类型 —— 每一列都允许有自己的类型 索引 —— 提高指定列的查询速度 事实证明,这些功能足以使Pandas成为Excel和数据库的强大竞争者...下一个选择是用NumPy向量的dict或二维NumPy数组构造一个DataFrame: 请注意第二种情况下,人口值是如何被转换为浮点数的。实际上,这发生在构建NumPy数组的早期。...如果你 "即时" 添加流媒体数据,则你最好的选择是使用字典或列表,因为 Python 在列表的末尾透明地预分配了空间,所以追加的速度很快。...所有的算术运算都是根据行和列的标签来排列的: 在DataFrames和Series的混合操作中,Series的行为(和广播)就像一个行-向量,并相应地被对齐: 可能是为了与列表和一维NumPy向量保持一致...要将其转换为宽格式,请使用df.pivot: 这条命令抛弃了与操作无关的东西(即索引和价格列),并将所要求的三列信息转换为长格式,将客户名称放入结果的索引中,将产品名称放入其列中,将销售数量放入其 "

    44420

    【精心解读】用pandas处理大数据——节省90%内存消耗的小贴士

    对于包含数值型数据(比如整型和浮点型)的数据块,pandas会合并这些列,并把它们存储为一个Numpy数组(ndarray)。Numpy数组是在C数组的基础上创建的,其值在内存中是连续存储的。...选理解子类(Subtypes) 刚才我们提到,pandas在底层将数值型数据表示成Numpy数组,并在内存中连续存储。这种存储方式消耗较少的空间,并允许我们较快速地访问数据。...由于pandas使用相同数量的字节来表示同一类型的每一个值,并且numpy数组存储了这些值的数量,所以pandas能够快速准确地返回数值型列所消耗的字节量。...这对我们原始dataframe的影响有限,这是由于它只包含很少的整型列。 同理,我们再对浮点型列进行相应处理: 我们可以看到所有的浮点型列都从float64转换为float32,内存用量减少50%。...总结 我们学习了pandas如何存储不同的数据类型,并利用学到的知识将我们的pandas dataframe的内存用量降低了近90%,仅仅只用了一点简单的技巧: 将数值型列降级到更高效的类型 将字符串列转换为类别类型

    8.7K50

    Python 全栈 191 问(附答案)

    十进制转二进制,转十六进制的函数各叫什么? 什么是函数作用域的 LEGB 规则 ? range(1,10,3) 返回一个什么样的迭代器? zip 函数能实现功能? 如何动态地删除类上的某个属性?...使用 NumPy 创建一个 [3,5] 所有元素为 True 的数组 数组所有奇数替换为 -1; 提取出数组中所有奇数 求 2 个 NumPy 数组的交集、差集 NumPy 二维数组交换 2 列,反转行...方法总结 Pandas 的 melt 将宽 DataFrame 透视为长 DataFrame 例子 Pandas 的 pivot 和 pivot_table 透视使用案例 Pandas 的 crosstab...频次透视函数使用例子 给定两个 DataFrame,它们至少存在一个名称相同的列,如何连接两个表?...DataFrame 上快速对某些列展开特征工程,使用 map 如何做到?

    4.2K20

    使用python创建数组的方法

    本文介绍两种在python里创建数组的方法。第一种是通过字典直接创建,第二种是通过转换列表得到数组。...方法1.字典创建 (1)导入功能 (2)创立字典 (3)将字典带上索引转换为数组 代码示例如下: import numpy as np import pandas as pd data={“name...他将返回“num-4”(第三为num)个等间距的样本,在区间[start-1, stop-4]中 方法2:列表转换成数组 (1)导入功能,创建各个列表并加入元素 (2)将列表转换为数组 (3)把各个数组合并...(4)可视需要转置数组 代码示例如下: import pandas as pd import numpy as np list1=[‘name’,‘sex’,‘school’,‘Chinese’...,df2,df3,df4],axis=1) data.columns=[1,2,3,4] data=data.T 运行结果如下: 扩展: data.T 可转置数组 data.columns

    9.1K20

    业界 | 用Python做数据科学时容易忘记的八个要点!

    为了一劳永逸地巩固我对这些概念的理解,并为大家免去一些StackOverflow的搜索,我在文章中整理了自己在使用Python,NumPy和Pandas时总是忘记的东西。...具体来说,map函数接受一个列表并通过对每个元素执行某种操作来将其转换为新列表。在下面的示例中,它遍历每个元素并将其乘以2的结果映射到新列表。请注意,这里的list函数只是将输出转换为列表类型。...所以给定一个起始值和终止值,并指定返回值的个数,linspace将根据你指定的个数在NumPy数组中划好等分。这对于数据可视化和在定义图表坐标轴时特别有用。...无论如何,这些功能基本上就是以特定方式组合dataframe的方法。可能很难评判在什么时候使用哪个最好,所以让我们都回顾一下。...Pandas内置的pivot_table函数将电子表格样式的数据透视表创建为DataFrame。

    1.4K00

    解决AttributeError: DataFrame object has no attribute tolist

    因为DataFrame是Pandas库中的一个二维数据结构,它的数据类型和操作方法与列表不同,所以没有直接的​​.tolist()​​方法。 在下面的文章中,我们将讨论如何解决这个错误。...values​​方法返回一个包含DataFrame的值的二维数组,而后面的​​.tolist()​​方法将该二维数组转换为列表。...要解决这个错误,我们需要使用​​.values.tolist()​​方法将DataFrame对象转换为列表。 希望本篇文章能帮助你解决这个错误,并更好地使用Pandas库进行数据分析和处理。...tolist()​​​方法是Pandas库中DataFrame对象的一个方法,用于将DataFrame对象转换为列表形式。...总之,​​.tolist()​​方法非常有用,可以方便地将DataFrame对象转换为嵌套列表,以满足某些数据处理或分析的需求。

    1.3K30

    解决pandas.core.frame.DataFrame格式数据与numpy.ndarray格式数据不一致导致无法运算问题

    我们尝试将列A转换为ndarray进行运算,但是会出现类型不匹配的错误。...= series_a + 1上述代码中,我们创建了一个新的变量​​series_a​​,将列A转换为ndarray并使用pd.Series()将其转换为pandas的Series数据格式。...通过将DataFrame的某一列转换为ndarray,并使用pd.Series()将其转换为pandas的Series数据格式,可以避免格式不一致的错误。...要解决DataFrame格式数据与ndarray格式数据不一致导致无法运算的问题,可以通过将DataFrame的某一列转换为ndarray并重新赋值给新的变量,然后再进行运算。...通过将DataFrame的某一列转换为ndarray,并重新赋值给新的变量,我们可以避免格式不一致的错误,成功进行运算。numpy库的ndarray什么是ndarray?

    53420

    Python 数据处理 合并二维数组和 DataFrame 中特定列的值

    ; 生成一个随机数数组; 将这个随机数数组与 DataFrame 中的数据列合并成一个新的 NumPy 数组。...首先定义了一个字典 data,其中键为 “label”,值为一个列表 [1, 2, 3, 4]。然后使用 pd.DataFrame (data) 将这个字典转换成了 DataFrame df。...在这个 DataFrame 中,“label” 作为列名,列表中的元素作为数据填充到这一列中。...values_array = df[["label"]].values 这行代码从 DataFrame df 中提取 “label” 列,并将其转换为 NumPy 数组。....运行结果如下: 总结来说,这段代码通过合并随机数数组和 DataFrame 中特定列的值,展示了如何在 Python 中使用 numpy 和 pandas 进行基本的数据处理和数组操作。

    15700

    pandas

    中series与DataFrame区别 Series是带索引的一维数组 Series对象的两个重要属性是:index(索引)和value(数据值) DataFrame的任意一行或者一列就是一个Series...生成日期去掉时分秒 import pandas as pd import numpy as np df = pd.DataFrame({ "date":pd.date_range...列中的日期转换为没有时分秒的日期 df.to_excel("dates.xlsx") 向pandas中插入数据 如果想忽略行索引插入,又不想缺失数据与添加NaN值,建议使用 df['column_name..._append(temp, ignore_index=True) pandas数据转置 与矩阵相同,在 Pandas 中,我们可以使用 .transpose() 方法或 .T 属性来转置 我们的DataFrame...对象,将列表作为一列数据 df = pd.DataFrame(data, columns=['姓名']) df_transposed = df.T # 保存为行 # 将 DataFrame

    13010

    资源 | 23种Pandas核心操作,你需要过一遍吗?

    选自 Medium 作者:George Seif 机器之心编译 参与:思源 本文转自机器之心,转载需授权 Pandas 是一个 Python 软件库,它提供了大量能使我们快速便捷地处理数据的函数和方法...Pandas 是基于 NumPy 构建的库,在数据处理方面可以把它理解为 NumPy 加强版,同时 Pandas 也是一项开源项目。...DataFrame 输出到一张表: print(tabulate(print_table, headers=headers)) 当「print_table」是一个列表,其中列表元素还是新的列表,「headers...(12)将目标类型转换为浮点型 pd.to_numeric(df["feature_name"], errors='coerce') 将目标类型转化为数值从而进一步执行计算,在这个案例中为字符串。...(13)将 DataFrame 转换为 NumPy 数组 df.as_matrix() (14)取 DataFrame 的前面「n」行 df.head(n) (15)通过特征名取数据 df.loc[feature_name

    2.9K20

    Numpy和pandas的使用技巧

    '' '''2、np.cumsum()返回一个数组,将像sum()这样的每个元素相加,放到相应位置''' '''NumPy数组实际上被称为ndarray NumPy最重要的一个特点是N维数组对象...ndarray,它是一系列同类型数据的集合 1、创建数组,将序列传递给numpy的array()函数即可,从现有的数据创建数组,array(深拷贝),asarray(浅拷贝); 或者使用arange...0,大于80,替换为90 print(b) 指定轴求和 np.sum(参数1: 数组; 参数2: axis=0/1,0表示列1表示行) 指定轴最大值np.max(参数1: 数组;...△ np.r_[] 按行上下连接两个矩阵 6、NumPy 数组操作 △ n.reshape(arr,newshape,order=)数组,新形状,"C"-按行、"F"-按列、"A"-原顺序、"k"-元素在内存中痴线顺序...△ n.transpose()对换数组的维度,矩阵的转置 △ ndarray.T 与上类似,用于矩阵的转置 △ n.concatenate((a1, a2, ...), axis)沿指定轴连接同形数组

    3.5K30

    Pandas数据处理——渐进式学习1、Pandas入门基础

    查看列名 head查看 DataFrame 头部数据 tail查看 DataFrame 尾部数据 转Numpy数组 数据统计摘要describe函数 横纵坐标转换位置 反向排列列数据 获取列数据 使用[...、不同索引的数据轻松地转换为 DataFrame 对象; 基于智能标签,对大型数据集进行切片、花式索引、子集分解等操作; 直观地合并(merge)、**连接(join)**数据集; 灵活地重塑(reshape...install numpy 生成对象·一维Series 用值列表生成 Series 时,Pandas 默认自动生成整数索引: import pandas as pd import numpy as...# 通过numpy生成一个6行4列的二维数组,行用index声明行标题,列用columns声明列标题 df = pd.DataFrame(np.random.randn(6, 4), index=dates...转Numpy数组 import pandas as pd import numpy as np dates = pd.date_range('20230213', periods=6) df = pd.DataFrame

    2.2K50

    针对SAS用户:Python数据分析库pandas

    我们将说明一些有用的NumPy对象来作为说明pandas的方式。 对于数据分析任务,我们经常需要将不同的数据类型组合在一起。...SAS/IML更接近的模拟NumPy数组。但SAS/IML 在这些示例的范围之外。 ? 一个Series可以有一个索引标签列表。 ? Series由整数值索引,并且起始位置是0。 ?...可以插入或替换缺失值,而不是删除行和列。.fillna()方法返回替换空值的Series或DataFrame。下面的示例将所有NaN替换为零。 ? ?...正如你可以从上面的单元格中的示例看到的,.fillna()函数应用于所有的DataFrame单元格。我们可能不希望将df["col2"]中的缺失值值替换为零,因为它们是字符串。...从技术架构师开始,最近担任顾问,他建议企业领导如何培养和成本有效地管理他们的分析资源组合。最近,这些讨论和努力集中于现代化战略,鉴于行业创新的增长。

    12.1K20

    Python数据分析-pandas库入门

    pandas使用最多的数据结构对象是 DataFrame,它是一个面向列(column-oriented)的二维表结构,另一个是 Series,一个一维的标签化数组对象。...pandas 兼具 NumPy 高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能,能更加便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。...使用 NumPy 函数或类似 NumPy 的运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)都会保留索引值的链接,代码示例: obj2*2 np.exp(obj2) 还可以将 Series...例如,我们可以给那个空的 “debt” 列赋上一个标量值或一组值(数组或列表形式),代码示例: frame2.debt = np.arange(6.) frame2 注意:将列表或数组赋值给某个列时,...作为 pandas 库的基本结构的一些特性,如何创建 pandas 对象、指定 columns 和 index 创建 Series 和 DataFrame 对象、赋值操作、属性获取、索引对象等,这章介绍操作

    3.7K20

    Python 数据分析(PYDA)第三版(二)

    虽然 NumPy 本身并不提供建模或科学功能,但了解 NumPy 数组和面向数组的计算将帮助您更有效地使用具有数组计算语义的工具,如 pandas。...表 4.1:一些重要的 NumPy 数组创建函数 函数 描述 array 将输入数据(列表、元组、数组或其他序列类型)转换为 ndarray,可以通过推断数据类型或显式指定数据类型来完成;默认情况下会复制输入数据...您可以使用 ndarray 的astype方法显式地将数组从一种数据类型转换为另一种数据类型: In [37]: arr = np.array([1, 2, 3, 4, 5]) In [38]: arr.dtype...2001 1.7 2.4 2002 3.6 2.9 您可以使用类似于 NumPy 数组的语法转置 DataFrame(交换行和列): In [75]: frame3.T Out...将单个元素或列表传递给[]运算符将选择列。 另一个用例是使用布尔 DataFrame 进行索引,比如通过标量比较生成的 DataFrame。

    29400
    领券