我想通过仅选择超出特定范围的列来子集数据帧。也就是说,我想单独评估每一列的max-min,并只选择范围大于给定值的列。例如,给定以下简单的dataframe,我想创建一个子集dataframe,它只包含范围大于99的列。(b和c列)
d <- data.frame(a=seq(0,10,1),b=seq(0,100,10),c=seq(0,200,20))
我试着修改这里的例子:,但是没有成功。我肯定我错过了一些简单的东西。
我有两个不同的数据帧,我想比较df中每一行的一些列 数据帧A: M_ID From To M_Type T_Type T_Length T_Weight #Trucks Loading_Time
1025 A B Boxes Open 12-Tyre 22 3 27-March-2019 6:00PM
1029 C D Cylinders Trailer High 23 2 28-March-2019 6:00PM
1989 G H Scrap Open 14-Tyre 2
我有两个数据帧df1和df2,我只想在结果中不匹配的列。我试着使用SQL来做,但是SQL返回所有列,而不是一列。
df1
col1|col2|col3
a b c
1 2 3
df2
col1|col2|col3
a b e
1 2 3
我想要的是如果它能返回
df3
col3
是否可以在pyspark中做do,或者我必须通过从两个数据帧中选择每一列然后进行比较来进行比较?
我有两个数据帧
DataFrame A和数据帧B。
A <- data.frame(a=c(1,2,3,4,5),b=c(2,4,6,8,10),c=c(3,6,9,12,15),x=c(4,8,12,16,20),y=c(5,10,15,20,25))
B <- data.frame(a=c(1,2,3,4,5),b=c(2,4,6,8,10),c=c(3,6,9,12,15),x=c(4,8,12,16,20),y=c(5,10,15,20,25))
A
a b c x y
1 2 3 4
我有一个python数据框架如下:
A B C
2 [4,3,9] 1
6 [4,8] 2
3 [3,9,4] 3
我的目标是遍历数据帧并比较B列,如果B列相同,则更新列C为相同的编号,如下所示:
A B C
2 [4,3,9] 1
6 [4,8] 2
3 [3,9,4] 1
我尝试使用下面的代码:
for i, j in df.iterrows():
if len(df['B'][i] ==len(df['B'][j] & collections.Counter(df['B'][i]
我有一个数据帧,它有100多列和10000行.如果该列中的所有行都相同,则手动检查每列中的数据,然后删除它将变得更加困难。
因此,我正在寻找一个函数,它将以我的数据帧作为输入,并输出另一个数据帧,其中只有不相同的列。
输入数据帧将类似于:
data<- read.table(text = "
A B C D
1 1 3 4
1 2 2 4", header = TRUE)
我希望输出数据帧是:
B C
1 3
2 2
谢谢。
我正在学习Python和Pandas,并试图找出最有效的方法来比较两个数据帧上的多个选定列,以找到匹配的列。例如,如果我有以下两个数据帧: Frame 1
A B C D E F
001 10 0 0 10 0 10
Frame 2
A B C D E F
200 10 0 10 0 10 0
201 0 10 10 0 0 10
202 0 10 0 0 0 0
2
这是我第一次提问,如果我违反了提问规则,我深表歉意。 我的问题如下: 我有一个数据框架。对于此数据帧中的每个值,我需要评估减去下一列中的相邻值是否会得到绝对值> 1,如果为真,则将两个值都更改为NA,否则什么也不做。 下面是生成与我的数据帧等效的数据帧的代码,以及我到目前为止用来从彼此中减去列对的代码。 任何帮助都将不胜感激。 #generate some random data
data <- data.frame(replicate(80,sample(1:5,139,rep=TRUE)))
#subtract pairs of columns
discrepancy
我想计算数据帧中每一对可能的列的每行数之间的绝对差异。
例如,使用下面的dataframe:
x <- rnorm(1:10)
y <- rnorm(1:10)
z <- rnorm(1:10)
df <- as.data.frame(cbind(x,y,z))
有可能的列组合的x-y,x-z,和y-z。我希望计算每一列对在每一行中的数字的差异。
我想要的输出是这样的:
Variable 1 Variable 2 Difference
x y 1
x y 2
x y 3
x z 4
x z 5
x z 6
x z
我有一个场景,我希望在两个数据帧之间找到不匹配的行。这两个数据帧都有大约30列和一个唯一标识每条记录/行的id列。因此,我想检查df1中的行是否与df2中的行不同。df1是更新后的数据帧,df2是以前的版本。 我尝试了一种方法pd.concat([df1, df2]).drop_duplicates(keep=False),但它只是将两个数据帧结合在一起。有办法做到这一点吗。如果能帮上忙我会很感激的。 这两个dfs的示例数据如下所示。 id user_id type status 总共有39列,其中可能包含NULL值。 谢谢。 P.S. df2将始终是df1的子集。