我有以下数据框:
y <- data.frame(group = letters[1:5], a = rnorm(5) , b = rnorm(5), c = rnorm(5), d = rnorm(5) )
如何获得一个数据帧,为我提供每一行的列a,b和c,d之间的相关性?
类似于:sapply(y, function(x) {cor(x[2:3],x[4:5])})
谢谢你,S
我想找出pandas数据帧中的哪些列具有不连续的数据。所谓“不连续”,我的意思是这些值从某个值变为零,然后再有一些值。
[0,0,0,1,2,3,4,5,0,0,0] # continuous
[0,0,0,1,2,0,4,5,0,0,0] # not continuous
我已经设法实现了一些可以做到这一点的代码,使用for循环来迭代数据帧的每一列。我在下面制作了一个工作代码片段来说明我的意思:
import numpy as np
import pandas as pd
def find_discontinuous(series):
switch = 0
for inde
我有一个包含x列和y列的数据帧,我想检查在x之后多少行从0变为1之后,当x列的值从0变为1,count列y的值从0变为1的时候 here is my dataframe;
df1=pd.DataFrame({'x':[0,0,0,0,0,1,1,1,1,0,0,0,1,1,1,1,1,1,0,0,1,1,1,1],'y':[0,0,0,0,0,0,1,1,1,0,0,0,0,0,0,1,1,1,0,0,1,1,1,1]})
desired_output
df_out=pd.DataFrame({'count_delay':[1,3,0]}
现在我有了这样一个SQL语句,我想知道如何在Pandas中编写它,也许可以使用groupBy和apply?:
给出一个包含A、B列的表
Select A, sum(B) / sum(A)
from table
group by A;
我现在在
def func(group):
x = group['B']
y = group['A']
return x.sum() / y.sum()
table.groupby('A').apply(func)
这将生成一个没有A列的数字序列,该序列用于按on进行分组。我希望有一个数据帧
我有想要按城市和日期分组的数据(单独的列),并使用其余列计算新值。更具体地说,其他列是按种族统计的6场比赛的人数。因此,我有8列,两个分组的列和6个我想要总结的列。我想通过计算每个城市日的熵来总结它们。 但是,城市和日期是字符串,我的熵函数不喜欢这样。当分组列为int64时,它会起作用。我尝试将city和day列转换为虚拟变量,但错误仍然存在。 借用this post,下面是一个使用我的函数的例子。 # The function
def newEntropy(x):
A = x
pA = A / A.sum()
Shannon2 = -np.nansum(pA *
我在python 3.X中使用了Pandas 0.20.3,我想从另一个熊猫数据框架中添加一列到熊猫数据框架中。这两个数据帧都包含51行。因此,我使用了以下代码:
class_df['phone']=group['phone'].values
我收到以下错误消息:
ValueError: Cannot set a frame with no defined index and a value that cannot be converted to a Series
class_df.dtypes给了我:
Group_ID object
YEAR
我有一个数据框架如下所示:
Group1 Group2 Group3 Group4
A B A B
A C B A
B B B B
A C B D
A D C A
我想在数据帧中添加一个新列,它将在每一行中有唯一元素的计数。期望产出:
Group1 Group2 Group3 Group4 Count
A B A B 2
A
我正在尝试用python编写不同的表名,这些表名是根据groupby函数为两列创建的不同数据帧来编写的。 list_dfs=[]
TT=Dataframe.groupby(['change','x2'])
for group,name in TT:
list_dfs.append(group)
writer = pd.ExcelWriter('output.xlsx')
def dt(_,g):
for _,g in Dataframe.groupby (Dataframe.index):
print (g)
对于给定的数据帧,我需要对数据进行分组(通过groupby),并对分组的数据执行操作(例如: grouped_data - 100)。在此之后,我需要用我刚刚计算的新值替换数据帧中的旧值。
我尝试将获得的值分配给分组的数据框,但似乎不起作用。
分组数据帧
altitude_feet Column_irrelevant_A Column_irrelevant_B
1889.155095 NaN NaN
1889.155095 NaN