我有一个dataframe,其中每一列代表一个用户。我正在尝试删除一个只有NaN和0.000000的any列,这样Username1或第一列就不会包含在数据帧中,而其他列会包含在数据帧中。 这是数据帧: username 1 2 3 4 5
date
2019-01-16 NaN 9.16667 NaN NaN 1.000000
2019-01-17 NaN NaN NaN 1.000000 1.000000
2019-0
我试图为数据帧的每一行找到三个最小的值,并将它们放在单独的数据帧中。我不需要知道它们来自哪一列,但我确实需要循环遍历m行,其中m可能会随着我使用的每个数据帧而改变。 我想使用heaps.nsmallest,但我不确定如何遍历每一行并每次将结果添加到数据帧的新行。我似乎只得到了一行结果作为输出。 for x in range(len(df1)):
heap=pd.DataFrame(heapq.nsmallest(3, df1[x])) 我原以为它会遍历x的值,但它只生成了一列,其中有len(df1)行。我认为它覆盖了以前的结果,因为它总是给出最后一行中的三个最小值。
我有一个数据帧,我想再添加一列
数据帧有29793行。因此,我希望新列继续到数据帧的末尾。
我尝试了一些东西。在乞讨中,声明列和类似于activity = ["sitting"]的值
然后,我尝试添加到现有的数据框架中。
a['activity'] = activity
但是我得到了以下错误
ValueError: Length of values does not match the length of the index
如何解决这个问题。有什么想法吗?
编辑:
是否有一种方法可以在数据帧(左侧)的乞讨中添加列,因为现在该列被追加在右侧。
我有一个数据帧,其中包含两列,一列是数据,另一列是该数据字段中的字符数。
Data Count
Hello 5
How 3
World 5
我想根据count column中的值更改列数据的值。如何才能做到这一点?我使用udf进行了尝试:
invalidrecords.withColumn("value",appendDelimiterError(invalidrecords("value"),invalidrecords("a_cnt")))
这似乎失败了,这是正确的方法吗?
我有一个数据框架,其中最后一列(“数据”)由一组数据帧组成,每一列都有一个“年份”和“产量”列。我想在列中的每个数据帧中添加第三列"Det_Yield“。我在想怎么用"tidyverse“的方法。
我使用了一个循环,像这样,但是我想知道如何使用map或其他一些整洁的方法来完成这个任务。谢谢。
for (cty in 1:66){
corn_by_county[[3]][[cty]]$Det_Yield <- NA
yield_model <- lm(corn_by_county[[3]][[cty]]$Yield ~ co
我是Spark初学者,我正在尝试决定是否可以从数据帧中抛出一列。
假设我有这个数据帧:
a b
----------
g x
f y
g x
f y
我想知道在列'a‘和'b’之间有一个精确的映射,因此我可以抛出其中的一个。
但是,如果数据帧是这样的:
a b
----------
g x
f x
g x
f y
这两列之间没有映射,因此必须保留这两列。
你对如何解决这个问题有什么建议吗?谢谢