首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据科学系列:pandas入门详细教程

,仅支持一维和二维数据,但数据内部可以是异构数据,仅要求同列数据类型一致即可 numpy的数据结构仅支持数字索引,而pandas数据结构则同时支持数字索引和标签索引 从功能定位上看: numpy虽然也支持字符串等其他数据类型...检测各行是否重复,返回一个行索引的bool结果,可通过keep参数设置保留第一行/最后一行/无保留,例如keep=first意味着在存在重复的多行时,首行被认为是合法的而可以保留 删除重复值,drop_duplicates...(通过axis参数设置对行还是对列,默认是行),仅接收函数作为参数 ?...count、value_counts,前者既适用于series也适用于dataframe,用于按列统计个数,实现忽略空值后的计数;而value_counts则仅适用于series,执行分组统计,并默认按频数高低执行降序排列...一般而言,分组的目的是为了后续的聚合统计,所有groupby函数一般不单独使用,而需要级联其他聚合函数共同完成特定需求,例如分组求和、分组求均值等。 ?

15K20

看图学NumPy:掌握n维数组基础知识点,看这一篇就够了

向量索引 一旦将数据存储在数组中,NumPy便会提供简单的方法将其取出: ? 上面展示了各式各样的索引,例如取出某个特定区间,从右往左索引、只取出奇数位等等。...math.isclose进行比较没有假设前提,而是基于用户给出的一个合理abs_tol值:math.isclose(0.1+0.2–0.3, abs_tol=1e-8) == True。...因此在二维数组中,如果axis=0是按列,那么axis=1就是按行。 ? 矩阵运算 除了普通的运算符(如+,-,*,/,//和**)以元素方式计算外,还有一个@运算符可计算矩阵乘积: ?...特定的列和行可以用delete进行删除: ? 逆运算为插入: ?...第一个索引是平面的编号,然后才是在该平面上的移动: ? 这种索引顺序很方便,例如用于保留一堆灰度图像:这a[i]是引用第i个图像的快捷方式。 但是此索引顺序不是通用的。

6K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    2022-09-25:给定一个二维数组matrix,数组中的每个元素代表一棵树的高度。 你可以选定连续的若干行组成防风带,防风带每一列的防风高度为这一列的最大值

    2022-09-25:给定一个二维数组matrix,数组中的每个元素代表一棵树的高度。...你可以选定连续的若干行组成防风带,防风带每一列的防风高度为这一列的最大值 防风带整体的防风高度为,所有列防风高度的最小值。...比如,假设选定如下三行 1 5 4 7 2 6 2 3 4 1、7、2的列,防风高度为7 5、2、3的列,防风高度为5 4、6、4的列,防风高度为6 防风带整体的防风高度为5,是7、5、6中的最小值 给定一个正数...k,k 的行数,表示可以取连续的k行,这k行一起防风。...求防风带整体的防风高度最大值。 答案2022-09-25: 窗口内最大值和最小值问题。 代码用rust编写。

    2.6K10

    盘点66个Pandas函数,轻松搞定“数据清洗”!

    df["迟到天数"] = df["迟到天数"].clip(0,31) 唯一值,unique()是以数组形式返回列的所有唯一值,而nunique()返回的是唯一值的个数。...列操作 数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。...数据筛选 如果是筛选行列的话,通常有以下几种方法: 有时我们需要按条件选择部分列、部分行,一般常用的方法有: 操作 语法 返回结果 选择列 df[col] Series 按索引选择行 df.loc[label...如果想直接筛选包含特定字符的字符串,可以使用contains()这个方法。 例如,筛选户籍地址列中包含“黑龙江”这个字符的所有行。...df.query("语文 > 英语") 输出: select_dtypes()方法可用于筛选某些数据类型的变量或列。举例,我们仅选择具有数据类型'int64'的列。

    3.8K11

    python数据分析——Python数据分析模块

    在numpy模块中,除了arrange方法生成数组外,还可以使用 np.zeros((m,n))方法生成m行,n列的0值数组; 使用np.ones((m, n))方法生成m行,n列的填充值为1的数组...; 使用np. eyes (m, n)方法生成m行,n列的对角线位置填充为1的矩阵; 使用random方法生成随机数组。...DataFrame由多个Series组成,DataFrame可以类比为二维数组或者矩阵,但与之不同的是,DataFrame必须同时具有行索引和列索引。...创建DataFrame的语句如下: index和columes参数可以指定,当不指定时,从0开始。通常情况下,列索引都会给定,这样每一列数据的属性可以由列索引描述。...调用df对象的index、columns、values属性,可以返回当前df对象的行索引,列索引和数组元素。 因为DataFrame类存在索引,所以可以直接通过索引访问DataFrame里的数据。

    26310

    70个NumPy练习:在Python下一举搞定机器学习矩阵运算

    设置dtype = None,则会返回一维元组数组。 26.如何从一维元组数组中提取特定的列? 难度:2 问题:从上一个问题中导入的一维iris数组中提取species文本列。...难度:3 问题:过滤具有petallength(第3列)> 1.5和sepallength(第1列)的iris_2d的行。 答案: 35.如何从numpy数组中删除包含缺失值的行?...难度:3: 问题:选择没有nan值的iris_2d数组的行。 答案: 36.如何找到numpy数组的两列之间的相关性?...43.用另一个数组分组时,如何获得数组中第二大的元素值? 难度:2 问题:第二长的物种的最大价值是什么? 答案: 44.如何按列排序二维数组?...难度:3 问题:创建一个与给定数字数组a相同形式的排列数组。 输入: 输出: 答案: 56.如何找到numpy二维数组每一行中的最大值? 难度:2 问题:计算给定数组中每一行的最大值。

    20.7K42

    【R的极客理想系列文章】RHadoop培训 之 R基础课

    数据框(data frame)是和矩阵类似的一种结构。在数据框中,列可以是不同的对象。可以把数据框看作是一个行表示观测个体并且(可能)同时拥有数值变量和分类变量的`数据矩阵’ 。...5 100 对dim 属性的赋值使得该向量成一个3 ×5 ×100 的数组 数组索引 数组元素可以通过给定数组名及其后方括号中用逗号隔开的下标访问。...可以根据索引数组去给数组中不规则的元素集合赋值或者将数组中特定的元素返回到一个向量中 array() 除了用设定一个向量dim 属性的方法来构建数组,它还可直接通过函数array将向量转换得到....这包括一个和M 列空间一致的正交列U 的矩阵,一个和M 行空间一致的正交列V 的矩阵,以及一个正元素D 的对角矩阵,如M = U %*% D %*% t(V)。D 实际上以对角元素向量的形式返回。...cbind() 把矩阵横向合并成一个大矩阵(列方式),而rbind()是纵向合并(行方式)。 对数组实现连接操作的函数c() 将一个数组强制转换成简单向量的标准方法是用函数as.vector()。

    2.9K20

    【机器学习实战】第14章 利用SVD简化数据

    推荐系统 原理 推荐系统的工作过程:给定一个用户,系统会为此用户返回N个最好的推荐菜。 实现流程大致如下: 寻找用户没有评级的菜肴,即在用户-物品矩阵中的0值。...开发流程 收集 并 准备数据 def loadExData3(): # 利用SVD提高推荐效果,菜肴矩阵 """ 行:代表人 列:代表菜肴名词 值:代表人对菜肴的评分.../svd-%E7%AC%94%E8%AE%B0/) # 基于SVD的评分估计 # 在recommend() 中,这个函数用于替换对standEst()的调用,该函数对给定用户给定物品构建了一个评分估计值...# 在SVD分解之后,我们只利用包含了90%能量值的奇异值,这些奇异值会以NumPy数组的形式得以保存 U, Sigma, VT = la.svd(dataMat) # #...* Sig4.I # 对于给定的用户,for循环在用户对应行的元素上进行遍历, # 这和standEst()函数中的for循环的目的一样,只不过这里的相似度计算时在低维空间下进行的。

    1.6K70

    数据导入与预处理-课程总结-04~06章

    header:表示指定文件中的哪一行数据作为DataFrame类对象的列索引,默认为0,即第一行数据作为列索引。...header:表示指定文件中的哪一行数据作为DataFrame类对象的列索引。 names:表示DataFrame类对象的列索引列表。...df.duplicated() # 返回boolean数组 # 查找重复值 # 将全部重复值所在的行筛选出来 df[df.duplicated()] # 查找重复值|指定 # 上面是所有列完全重复的情况...axis:表示分组操作的轴编号,可以是0或1。该参数的默认值为0,代表沿列方向操作。 level:表示标签索引所在的级别,默认为None。...# 重塑df,使之具有两层行索引 # 原来的列数据one, two, three就到了行上来了,形成多层索引。

    13.1K10

    机器学习速成第一集——机器学习基础

    数学基础复习 NO.1线性代数复习 详细请看我的《线性代数》专栏 向量 矩阵运算 特征值与特征向量 NO.2概率与统计复习 概率统计基础 详细请看我的《概率论》专栏 一、概率de基本概念: 1.随机试验...arr2, arr2.T) print(result) # 输出 [[14 32] [32 77]] 数组索引与切片: # 索引 print(arr2[0, 1]) # 输出 2 # 切片 print...= 1 # 上述代码可知只有索引为1的一行存在 selected_row = cleaned_df.loc[row_index, :] print(selected_row) # 替换缺失值 df.fillna...第一个排序结果将根据"A"列的值以降序排序,第二个排序结果将根据"A"列和"B"列的值进行降序排序。'''...,将缺失值放在后面 sorted_df2 = df.sort_values(by=['A', 'B']).fillna(df.max()) print(sorted_df2) 数据分组求和: # 按某一列分组

    7610

    MATLAB中向量_向量法表示字符串

    由于向量是一维的,所以第一个每次输出都是一 length():返回数组行列大小的最大值,对于向量,表示其长度 例如: 索引向量 通过在括号内输入零个(全部输出)或多个元素的索引值,可以单个或分组访问向量中的元素...可以通过以下两种方式中的任意一种访问向量中的元素: 使用数值向量和逻辑向量。 数值索引 通过在括号内输入零个或多个元素的索引值,可以单个或分组访问向量中的元素。...看一个简单的例子: Maltab中的数组 向量是聚集相似数据集的最简单的方法。而数组是向量的拓展,使其包括多个维度的数组,其中二维数组是每行具有相同的列,并且每列具有相同的行。...zeros(m,n):创建m行n列的全0的数组 rand(m,n):创建m行n列的0~1随机数的数组 randn(m,n):创建m行n列的正态分布随机数的数组 diag():返回对角线上的元素...,每列的最大值和每列的最小值 连接数组 看一个简单的例子 切片数组 对一个数组进行切片:A(对行索引,对列索引) 例子: 重塑数组 有些时候我们希望将某一维度的数组变形为另一种维度的需求

    2.4K30

    Python数据分析常用模块的介绍与使用

    ((m,n))方法生成m行,n列的0值数组; 使用np.ones((m, n))方法生成m行,n列的填充值为1的数组; 使用np. eyes (m, n)方法生成m行,n列的对角线位置填充为1的矩阵;...Series Series是Pandas中的一种数据结构,类似于一维的数组或列表。它由两个部分组成:索引和数据值。索引是Series中数据的标签,它可以是整数、字符串或其他数据类型。...DataFrame由多个Series组成,DataFrame可以类比为二维数组或者矩阵,但与之不同的是,DataFrame必须同时具有行索引和列索引,每列可以是不同的数据类型(整数、浮点数、字符串等)。...示例 创建DataFrame的语句如下: index和columes参数可以指定,当不指定时,从0开始。通常情况下,列索引都会给定,这样每一列数据的属性可以由列索引描述。...调用df对象的index、columns、values属性,可以返回当前df对象的行索引,列索引和数组元素。 因为DataFrame类存在索引,所以可以直接通过索引访问DataFrame里的数据。

    32010
    领券