首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

玩转数据处理120题|Pandas版本

['categories'] # 等价于 df.drop(columns=['categories'], inplace=True) 35 数据处理 题目:将df的第一列与第二列合并为新的一列 难度:...⭐⭐ Python解法 df['test'] = df['education'] + df['createTime'] 36 数据处理 题目:将education列与salary列合并为新的一列 难度...⭐⭐ Python解法 df.col1[df['col1'] > 50] = '高' 100 数据计算 题目:计算第一列与第二列之间的欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数 Python解法...10行中读取positionName, salary两列 Python解法 df1 = pd.read_csv(r'C:\Users\chenx\Documents\Data Analysis\数据1....从数据2中读取数据并在读取数据时将薪资大于10000的为改为高 Python解法 df2 = pd.read_csv(r'C:\Users\chenx\Documents\Data Analysis\

7.6K41

Pandas进阶修炼120题,给你深度和广度的船新体验

print(df.groupby('education').mean()) 25.将createTime列时间转换为月-日 #备注,在某些版本pandas中.ix方法可能失效,可使用.iloc,参考...categories del df['categories'] # 等价于 df.drop(columns=['categories'], inplace=True) 35.将df的第一列与第二列合并为新的一列...df['test'] = df['education']+df['createTime'] df 36.将education列与salary列合并为新的一列 #备注:salary为int类型,操作与...(df['col2']-df['col3']) Part 5 一些补充 101.从CSV文件中读取指定数据 # 备注 从数据1中的前10行中读取positionName, salary两列 df =...# 备注 从数据2中读取数据并在读取数据时将薪资大于10000的为改为高 df = pd.read_csv('数据2.csv',converters={'薪资水平': lambda x: '高' if

6.2K31
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    玩转数据处理120题|R语言版本

    难度:⭐ R解法 df <- df[,-4] # 提高可读性可采用如下代码 df % select(-c('categories')) 35 数据处理 题目:将df的第一列与第二列合并为新的一列...salary列合并为新的一列 难度:⭐⭐⭐ 备注:salary为int类型,操作与35题有所不同 R解法 df % mutate(test1 = paste0...=3)) 98 数据修改 题目:将数据按照第三列值的大小升序排列 难度:⭐⭐ R语言解法 df % arrange(col3) 99 数据修改 题目:将第一列大于50的数字修改为'...高' 难度:⭐⭐ R语言解法 df[df$col1 > 50,1] <- '高' 100 数据计算 题目:计算第一列与第二列之间的欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数 R语言解法 #...难度:⭐⭐ 备注 从数据2中读取数据并在读取数据时将薪资大于10000的为改为高 R语言解法 library(readr) df2 % mutate

    8.9K10

    Pandas进阶修炼120题|完整版

    ] 35 数据处理 题目:将df的第一列与第二列合并为新的一列 难度:⭐⭐ 答案 df['test'] = df['education']+df['createTime'] 36 数据处理 题目:将...education列与salary列合并为新的一列 难度:⭐⭐⭐ 备注:salary为int类型,操作与35题有所不同 答案 df["test1"] = df["salary"].map(str) +...] > 50]= '高' 100 数据计算 题目:计算第一列与第二列之间的欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数 答案 np.linalg.norm(df['col1']-df['col2'...]) 第五期:一些补充 101 数据读取 题目:从CSV文件中读取指定数据 难度:⭐⭐ 备注 从数据1中的前10行中读取positionName, salary两列 答案 df = pd.read_csv...:⭐⭐ 备注 从数据2中读取数据并在读取数据时将薪资大于10000的为改为高 答案 df = pd.read_csv('数据2.csv',converters={'薪资水平': lambda x: '高

    12.7K106

    玩转数据处理120题|Pandas&R

    的第一列与第二列合并为新的一列 难度:⭐⭐ Python解法 df['test'] = df['education'] + df['createTime'] R解法 df % mutate...(test = paste0(df$education,df$createTime)) 36 数据处理 题目:将education列与salary列合并为新的一列 难度:⭐⭐⭐ 备注:salary为int...df <- rbind(df1,df2,df3) 86 数据创建 题目:将df1,df2,df3按照列合并为新DataFrame 难度:⭐⭐ 期望结果 0 1 2 0 95 0 0.022492 1 22...难度:⭐⭐ 备注 从数据2中读取数据并在读取数据时将薪资大于10000的为改为高 Python解法 df2 = pd.read_csv(r'C:\Users\chenx\Documents\Data...df2,by = c('key1','key2')) 110 数据处理 题目:再次读取数据1并显示所有的列 难度:⭐⭐ 备注 数据中由于列数较多中间列不显示 Python解法 df = pd.read_csv

    6.1K41

    SparkSql全代码生成规则梳理-CollapseCodegenStages

    Spark 的向量化主要是靠ColumnarBatch (列批),它实际上是按照批次把每一列按照向量存储的方式一列一列存起来。...ColumnarToRowExec类中WSCG的代码: 实际上是一个用 FOR 循环一列一列地访问信息,这个过程正好吻合了 Java 向量化的处理过程:当这段代码被调用足够多次时,JVM 会发现自身对这个地方优化很有价值...构造此算子的输出 RDD 时,将异步启动 Spark 作业,以计算广播关系的值。然后将这些数据放入 Spark 广播变量中。流式关系不会被 Shuffle。...case _: ShuffledHashJoinExec => "shj" //首先使用 JOIN KEY Shuffle 数据,执行两个子关系的 HASH JOIN case _: SortMergeJoinExec...=> "smj" //执行两个子关系的 SORT MERGE JOIN case _: BroadcastNestedLoopJoinExec => "bnlj" //以广播的方式执行两个子关系的嵌套循环

    1.4K20

    【高效开发工具系列】列编辑功能:提升代码编辑效率的利器

    这两款编辑器都提供了一个非常实用的功能——列编辑(Column Selection),它允许开发者以列的方式选择和编辑代码,极大地提高了编码效率。...拖动选择列:接着,使用鼠标拖动来选择同一列的其他行。你会看到 IDEA 以列的方式高亮显示选中的文本。...编辑选中的列:在选中列之后,你可以输入新的文本,IDEA 会自动将这些文本替换到所有选中的列中。 此外,如果你想要通过键盘来实现列编辑,可以使用Alt + Shift + 下箭头键。...拖动选择列:使用鼠标拖动来选择同一列的其他行,PyCharm 会以列的方式高亮显示选中的文本。 编辑选中的列:在选中列之后,输入新的文本,PyCharm 会将这些文本应用到所有选中的列中。...处理表格数据:在处理 CSV 或 Excel 文件时,列编辑可以快速选择和编辑同一列的数据。 代码格式化:在对代码进行格式化时,列编辑可以帮助快速调整代码结构,如添加或删除注释等。

    13110

    《SQL开发样式指南》,让你的SQL代码更加规范

    优先使用C语言式的以/*开始以*/结束的块注释,或使用以--开始的行注释。 Avoid 应避免的事情 驼峰命名法——它不适合快速扫描。 描述性的前缀或匈牙利命名法比如sp_或tbl。...不要使用类似tbl或其他的描述性的前缀或匈牙利命名法。 表不应该同它的列同名,反之亦然。 尽量避免连接两个表的名字作为关系表(relationship table)的名字。...在分号后(分隔语句以提高可读性)。 在每个关键词定以后。 将多个列组成一个逻辑组时的逗号后。 将代码分隔成相关联的多个部分,帮助提高大段代码的可读性。...Identation 缩进 为确保SQL的可读性,一定要遵守下列规则。 Joins Join语句 Join语句应该缩进到川流的另一侧并在必要的时候添加一个换行。...将值存入一列并将单位存在另一列。列的定义应该让自己的单位不言自明以避免在应用内进行合并。使用CHECK()来保证数据库中的数据是合法的。

    36110

    SQL笔记(2)——MySQL的表操作与索引

    修改列 这里以修改备注列的值不允许为空,默认值为空备注为场景; mysql> alter table score modify column remarks varchar(1000) not null...在SQL中,修改表中某一列的数据类型是一个重要的操作,因为数据类型决定了该列可以存储的数据种类和范围。...这个场景很简单,就是改变备注列的位置,但是由于SQL语法的原因,需要区别一下的是,移到某列后面或移到表开始列命令是不一样的; mysql> ALTER TABLE score MODIFY COLUMN...它可以提高数据库查询的速度,基本原理是使用空间换取时间,将索引存储在磁盘上的文件中以加快读写速度。使用索引可以对表中的一列或多列的值进行排序,从而快速访问表中的特定信息。...Seq_in_index:索引中该列的顺序,从1开始。 Column_name:索引中包含的列名。 Collation:对该列使用的字符集排序规则,如果该列不在任何索引中,则为NULL。

    1.7K20

    Pandas进阶修炼120题|当Pandas遇上NumPy

    DataFrame 难度:⭐⭐ 答案 df = pd.concat([df1,df2,df3],axis=0,ignore_index=True) 86 数据创建 题目:将df1,df2,df3按照列合并为新...75, 100])) 88 数据修改 题目:修改列名为col1,col2,col3 难度:⭐ 答案 df.columns = ['col1','col2','col3'] 89 数据提取 题目:提取第一列中不在第二列出现的数字...df['col1'].append(df['col2']) temp.value_counts().index[:3] 91 数据提取 题目:提取第一列中可以整除5的数字位置 难度:⭐⭐⭐ 答案 np.argwhere...难度:⭐⭐⭐ 备注 每次移动三个位置,不可以使用自定义函数 答案 np.convolve(df['col2'], np.ones(3)/3, mode='valid') 98 数据修改 题目:将数据按照第三列值的大小升序排列...] > 50]= '高' 100 数据计算 题目:计算第一列与第二列之间的欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数 答案 np.linalg.norm(df['col1']-df['col2'

    99220

    SQL递归实现循环判断

    SQL递归实现循环判断 以前的文章Python小案例(五)循环判断进行分组介绍了如何使用python解决循环判断的问题。现在重新回顾一下这个问题背景:有一列按照某规则排序后的产品,想打包进行组合售卖。...递归查询是通过CTE(表表达式)来实现,至少包含两个查询,第一个查询为定点成员,定点成员只是一个返回有效表的查询,用于递归的基础或定位点;第二个查询被称为递归成员,使该查询称为递归成员的是对CTE名称的递归引用是触发...常见的如下: 在线SQL 支持类型 备注 SQL Fiddle[1] MySQL、Oracle、PostgreSQL、SQLite、SQL Server 全!...原理都是抽象或枯燥的,直接拿最常见的例子演示一遍。...递归实现斐波那契数列 这里用的SQL OnLine中的SQL Server,界面是真的清爽。

    2.6K20

    n皇后问题总结_模拟退火n皇后

    上面说过该问题是回溯法的经典应用,所以可以使用回溯法来解决该问题,具体实现也有两个途径,递归和非递归。...程序首先对N行中的每一行进行探测,寻找该行中可以放置皇后的位置,具体方法是对该行的每一列进行探测,看是否可以放置皇后,如果可以,则在该列放置一个皇后,然后继续探测下一行的皇后位置。...如果已经探测完所有的列都没有找到可以放置皇后的列,此时就应该回溯,把上一行皇后的位置往后移一列,如果上一行皇后移动后也找不到位置,则继续回溯直至某一行找到皇后的位置或回溯到第一行,如果第一行皇后也无法找到可以放置皇后的位置...,因为虽然找到了N皇后问题的一个解,但是要找的是所有解,需要回溯,从当前放置皇后的下一列继续探测 //如果a[k]>num也会执行下面两行代码,就是说在当前行没有找到可以放置皇后的位置,于是回溯,...// row + p,将当前列置1,表示记录这次皇后放置的列。

    85830

    关于SQLServer 中行列互转的实例说明

    pivot 与 unpivot 函数是SQL2005新提供的2个函数,PIVOT 通过将表达式某一列中的唯一值转换为输出中的多个列来旋转表值表达式,并在必要时对最终输出中所需的任何其余列值执行聚合。...目前客户要求以物资为条件对各供应上报价进行汇总显示。接下来我们按照刚才提供的语法使用pivot来实现列转行。...pivot很简单的实现了列转行,对于类似的数据处理灰常灰常的实用,避免了使用case when 或者循环游标的复杂处理,大大提高了处理速度和代码整洁优雅。...注意事项: 1.对升级到 SQL Server 2005 或更高版本的数据库使用 PIVOT 和 UNPIVOT 时,必须将数据库的兼容级别设置为 90 或更高;                 2.UNPIVOT...将与 PIVOT 执行几乎完全相反的操作,将列转换为行,但是也不是完全的相同,PIVOT 会执行一次聚合,从而将多个可能的行合并为输出中的单个行。

    1.1K10

    关于SQLServer 中行列互转的实例说明

    pivot 与 unpivot 函数是SQL2005新提供的2个函数,PIVOT 通过将表达式某一列中的唯一值转换为输出中的多个列来旋转表值表达式,并在必要时对最终输出中所需的任何其余列值执行聚合。...目前客户要求以物资为条件对各供应上报价进行汇总显示。接下来我们按照刚才提供的语法使用pivot来实现列转行。...pivot很简单的实现了列转行,对于类似的数据处理灰常灰常的实用,避免了使用case when 或者循环游标的复杂处理,大大提高了处理速度和代码整洁优雅。...注意事项: 1.对升级到 SQL Server 2005 或更高版本的数据库使用 PIVOT 和 UNPIVOT 时,必须将数据库的兼容级别设置为 90 或更高;                 2.UNPIVOT...将与 PIVOT 执行几乎完全相反的操作,将列转换为行,但是也不是完全的相同,PIVOT 会执行一次聚合,从而将多个可能的行合并为输出中的单个行。

    1.5K70

    建议收藏丨sql行转列的一千种写法!!

    问题: ps.哈哈哈哈,这不就是10次面试9次问的行转列嘛~ 讨论过程中: 大佬们纷纷谏言献策,集思广益。...when实现 使用case when来依条件分列是最简单的一种方法。...第二步,添加辅助列。Excel 实现列转换,可以通过【添加辅助列】来实现该效果。而在 Power Query 有多种可以添加辅助列的方法。...此处介绍两种方法法一,通过自定义列,添加辅助列法二,通过重复列,实现添加辅助列 第三步,进行透视列。【透视列】>【值列,自定义,选中需要透视的列】-【聚合值函数,选择不要聚合】-【确定】。...rowLine.add(field.getName()); } //新table从第二列开始,某一列的某个值对应旧table第一列的某个字段

    1.3K30

    一场pandas与SQL的巅峰大战(二)

    hive方面我们新建了一张表,并把同样的数据加载进了表中,后续直接使用即可。 ? ? 开始学习 一、字符串的截取 对于原始数据集中的一列,我们常常要截取其字串作为新的列来使用。...需要从订单时间ts或者orderid中截取。在pandas中,我们可以将列转换为字符串,截取其子串,添加为新的列。...我定义了两个函数,第一个函数给原数据增加一列,标记我们的条件,第二个函数再增加一列,当满足条件时,给出对应的orderid,然后要对整个dataframe应用这两个函数。...在pandas中,我们采用的做法是先把原来orderid列转为字符串形式,并在每一个id末尾添加一个逗号作为分割符,然后采用字符串相加的方式,将每个uid对应的字符串类型的订单id拼接到一起。...下面是在Hive和pandas中查看数据样例的方式。我们的目标是将原始以字符串形式存储的数组元素解析出来。 ? ?

    2.3K20

    Tidyverse|数据列的分分合合,一分多,多合一

    第一列的ID,和人为添加的ID2,名称不规则,我们只需要前面的基因名。...二 合久可分-一列拆多列 使用separate函数, 将“指定”分隔符出现的位置一列分成多列 2.1 默认,不指定分隔符 data %>% separate(ID, into = c("Gene",...2.4,按照第几个字符拆 根据第几个字符拆分,适合数据规整的,,, 可以用来将TCGA中的sampleID转为常见的16位,需要先转置 data2 %>% select(Gene1,contains...("TCGA")) %>% #选择指定列 column_to_rownames(var = "Gene1") %>% # 将Gene1列转为rownames t() %>% as.data.frame...三 分久必合-多列合一列 使用unite函数, 可将多列按照“指定”分隔符合并为一列 data %>% unite(ID_new, ID:ID2, sep = "_") %>% head() ?

    3.7K20

    css grid 布局那些事儿

    提供通过使用行号和名称或通过定位网格的特定区域将项目放置在特定位置的能力。还包括一个算法来控制未明确放置在网格上的项目的放置。 提供控制项目放置在网格区域内后如何对齐以及网格整体对齐方式的能力。...之后,将以下 CSS 代码添加到您的样式表中: .container { display: grid; } 这将创建一个网格布局,其中一列包含所有子元素。...使用列和行 网格允许您指定布局中的列数和行数,然后将元素放置在这些列和行中。 grid-template-columns 您可以使用和 grid-template-rows 属性控制列和行的宽度。...例如,以下代码将创建三列,第一列的宽度是第二列的两倍,第三列的宽度是第三列的三倍: .container { display: grid; grid-template-columns:...50% 33.33% 25%; } 在布局中指定列数和行数后,您可以使用 grid-column 和 grid-row 属性将元素放置在这些列和行中。

    2.1K30

    图解面试题:滴滴2020求职真题

    【解题步骤】 我们首先对数据进行预处理,将北京时间转化为巴西时间。具体需要分两步来实现,首先为了确保表中的时间为标准的日期格式,我们统一对其进行日期格式处理。然后再将处理后的日期转换成巴西时间。...完单率=完成订单数/呼叫订单数 完成订单: 完成时间(finish_time)这一列中,值不等于‘1970’的数据数量为有效的完成订单数。...-- 添加列alter table 订单信息表 add column call_time_hour varchar(255); 利用date_format 函数,用于以不同的格式显示日期数据,将将数据格式转换成小时.../** 给列添加数据%k表示显示的是24小时制中的小时*/update 订单信息表set call_time_hour=date_format(call_time,'%k'); 转化后的表如下图 (2...sql语句如下: -- 添加一列来显示时间中的“年月日”部分alter table 订单信息表 add column call_time_day varchar(255);update 订单信息表set

    1.2K00

    PySpark︱DataFrame操作指南:增删改查合并统计与数据处理

    — 2.2 新增数据列 withColumn— withColumn是通过添加或替换与现有列有相同的名字的列,返回一个新的DataFrame result3.withColumn('label', 0)...count() —— 计算每组中一共有多少行,返回DataFrame有2列,一列为分组的组名,另一列为行总数 max(*cols) —— 计算每组中一列或多列的最大值...mean(*cols) —— 计算每组中一列或多列的平均值 min(*cols) —— 计算每组中一列或多列的最小值 sum(*cols) —— 计算每组中一列或多列的总和 —...4.3 apply 函数 — 将df的每一列应用函数f: df.foreach(f) 或者 df.rdd.foreach(f) 将df的每一块应用函数f: df.foreachPartition(f)...na的行 df = df.dropna(subset=['col_name1', 'col_name2']) # 扔掉col1或col2中任一一列包含na的行 ex: train.dropna().count

    30.5K10
    领券