我有一个比较大的数据集(大约273,744条记录),其中包括人的名字和他们使用的屈光能力:
Name | Dioptric | Gender | Town |
-----------------------------------
'John' | 0.25 | M | A |
'Jack' | 0.5 | M | C |
'John' | 25 | M | A |
'Mary' | 0.25 | F | C |
......
我有一个数据帧,我想对它进行分组(或切片)。数据帧的形式为
A B C
a b 1
a b 0
a b 1
a b 2
a b 0
a e 3
a e 3
f g 6
f g 7
f g 0
我想首先对列A和列B上的数据帧进行分组,然后,将每个分组按某个值进一步划分为具有连续行的较小分组。例如,在按列A和列B对数据帧进行分组后,每当我在列C中遇到0时,我希望在第三级上优化分组。因此,分组的数据帧如下所示
A B C
a b 1
a b 0
a b 1
a b 2
a b 0
a e 3
a e 3
f g 6
我有一个包含x列和y列的数据帧,我想检查在x之后多少行从0变为1之后,当x列的值从0变为1,count列y的值从0变为1的时候 here is my dataframe;
df1=pd.DataFrame({'x':[0,0,0,0,0,1,1,1,1,0,0,0,1,1,1,1,1,1,0,0,1,1,1,1],'y':[0,0,0,0,0,0,1,1,1,0,0,0,0,0,0,1,1,1,0,0,1,1,1,1]})
desired_output
df_out=pd.DataFrame({'count_delay':[1,3,0]}
我使用的是Bokeh 0.12.15版本,它生成了一个很好的正方形图形。我想知道如何才能很容易地找到每个六边形值的索引?
例如,对于下面的代码():
import numpy as np
from bokeh.io import output_file, show
from bokeh.models import HoverTool
from bokeh.plotting import figure
n = 500
x = 2 + 2*np.random.standard_normal(n)
y = 2 + 2*np.random.standard_normal(n)
p = figur
如果我有这样一个DataFrame (非常小的例子)
col1 col2
0 a 1
1 a 2
2 b 1
3 b 2
4 b 4
5 c 1
6 c 2
7 c 3
当所有的col2值与其唯一的col1值相关时,我想要它们的交集(所以在这种情况下,交集应该是[1,2]),我如何才能使用Pandas呢?换句话说,这将是col2中存在于col1中每个唯一值的值。
我的(坏的)解决方案是使用col1获得唯一的unique元素,然后从col1中的每个惟一元素构建字典,然后取这些字典
我有一个列表,但由于Int64Index,我无法访问它。是否有一种方法可以访问单个值或使其成为正常列表?
data_exp = pd.read_csv(path+'/exp.csv')
exp_list=[]
for i in range (1,n+1):
check=data_exp.apply(lambda x: True if x['Set No.']==i else False, axis=1)
temp=[data_exp[check==True].index+1]
exp_list.append(temp)
del tem
我正在尝试为热图或3D绘图准备一些数据。一般的想法是,我有一些函数z=f(x,y),其中z是特定单元格的值,x是它的列值,y是它的索引值。
我目前的方法是循环遍历数据帧,它已经显示了期望的结果:
import numpy as np
import pandas as pd
def my_fun(a, b):
return(a**2 + b**3)
index = [i for i in np.arange(25.0, 100.0, 25.0)]
columns = [i for i in np.arange(150.0, 600.0, 150.0)]
df = pd.DataFr
所以在我的学校里,我们正在做一个编码项目,制作一个压缩算法。我正在研究一种使用字典和RLE混合的方法。目前,我正在测试制作一本嵌入式词典,并使用熊猫将价值投入其中。问题是,某些东西超出了范围,扩展了pd DataFrame,导致图像形状错误。我在Google工作,因此cv2_imshow导入
import pandas as pd
import cv2
from google.colab.patches import cv2_imshow
'''
so the idea is you have a dictionary, with 255 keys for all t
如何使用pandas向量化或numpy向量化,这涉及到生成/构建字典?所以目前,我只是使用df.itertuples实现了对数据的迭代。我想知道我是否可以使用pandas矢量化来优化它,但我得到的错误是unhashable type: 'numpy.ndarray'或'Series' objects are mutable, thus they cannot be hashed。我完全理解为什么,因为它们是可变对象。但是我如何使用pandas或numpy向量化来实现下面这样的例子呢?这有可能吗?即使是这样,它在性能上会有什么不同吗? 让我们考虑一个简单的代码,
我需要获取DataFrame系列的一些特定索引的列表,以及所有这些列表的列表。
我可以用列表理解来做这件事,但我想知道我是否能用DataFrame的apply方法来做这件事。这是一个玩具模型:
a=pd.DataFrame({'a':[1,1,1,0,0,1],'b':[1,0,1,0,0,1]})
[a[a[name]==1].index for name in a.columns]
可能只是因为我对pandas了解不深,但当我使用apply方法时,我将序列想象成一个列表,因此我不知道如何“放入”index属性。
我有一个python pandas表,如下所示:
class | id
_____________________
A 12311894945
A 12311760566
A 12311433981
A 12299990440
A 12291758744
B 12311894945
B 12311760566
B 12311433981
B 12299990440
B 12291758744
C 1229