我正在尝试确定特定列(索引2)中哪些行的值为nan,然后删除具有nan的行,或者将没有nan的行移动到自己的数据帧中。有没有任何关于如何进行这两种方法的建议?
我试图创建一个包含所有行和指定列的向量,但数据类型对象给我带来了麻烦。另外,我尝试创建一个列表,并将该特定列中!= 'nan'的所有行添加到该列表中。
patientsDD = patients.iloc[:,2].values
ddates = []
for value in patients[:,2]:
if value != 'nan':
ddates.append(val
我是Python的新手。我想找出我的dataframe中哪一列的缺失值最多。假设我们有5行1000列。
例如
C1 C2 ... C1000
10 21 ... NaN
NaN 45 ... 29
15 21 ... NaN
21 NaN ... 27
61 NaN ... NaN
C1000具有最大的缺失值。因此我的代码应该返回列名"C1000“
这是我的数据帧头。我正在尝试删除列“Type2”中的NaN值,但是我不确定如何决定是删除包含NaN值的整个列,还是删除包含NaN值的行。我应该如何决定使用哪种方法来删除NaN值?对于一般的数据集,是否有特定的阈值来确定是删除行还是删除整个列?我的最终目标是在这个数据集上运行一个机器学习算法来预测一个口袋妖怪是否具有传奇色彩。谢谢
# Name Type 1 Type 2 Total HP Attack Defense Sp. Atk Sp. Def Speed Generation Legendary
2 3 Venusaur Grass Pois
我想合并具有相似列in的行,数据集中大约有50个列。现在,在id=为“ABC”的一行中,25列中有值,在id=为“ABC”的另一行中,其余25列中有值。我希望只有一个唯一的id,值在所有50列中。基本上,我希望合并具有重复ids的行。但是,如果id列中没有值,但id2或id3中有值,则不应该删除该行。
给定数据名:
id value1 value2 value3 value4 id2 id3
ABC 100 ABD AND
ABC 10
我需要从pandas.DataFrame中删除满足不寻常条件的所有行。
如果有一个完全相同的行,除了它在列"C“中有Nan值之外,我想删除此行。
给定一个表:
A B C D
1 2 NaN 3
1 2 50 3
10 20 NaN 30
5 6 7 8
我需要删除第一行,因为它在列C中有Nan,但在列C中有绝对相同的行(第二行)和实数值。
但是,第三行必须保留,因为不存在具有相同A、B和D值的行。
你如何使用pandas来实现这一点?谢谢!
我正在尝试构建一个函数来从我的数据集中消除只有一个值的列。我使用了这个函数:
def oneCatElimination(dataframe):
columns=dataframe.columns.values
for column in columns:
if len(dataframe[column].value_counts().unique())==1:
del dataframe[column]
return dataframe
问题是,该函数消除了具有多个不同值的偶数列,即具有整数的索引列。
我有一个包含几个列的dataframe,其中一些列包含NaN值。我希望每一行都创建另一个列,其中包含列总数减去第一个非NaN值之前的NaN值数。
原始数据:
ID Value0 Value1 Value2 Value3
1 10 10 8 15
2 NaN 45 52 NaN
3 NaN NaN NaN NaN
4 NaN NaN
我有一个包含age、date和location列的数据文件。
我想计算一下在所有列中有多少行是空的(不是一些,而是全部在同一时间)。我有以下代码,每一行都是独立工作的,但是如何说age AND date AND location是空的呢?
df‘’age‘..isnull().sum()df’‘date’..isnull().sum()df‘’location‘..isnull().sum()
在移除这三列中缺少值的行之后,我想返回一个dataframe,如下所示,但是合并在一个语句中:
Df.mask(行‘’location‘..isnull())df[np.isfinite(df’
我有一只熊猫数据,我正试图根据一个跨选择列的标准删除行。如果这些选择列中的值为零,则应删除行。下面是一个例子。
import pandas as pd
t = pd.DataFrame({'a':[1,0,0,2],'b':[1,2,0,0],'c':[1,2,3,4]})
a b c
0 1 1 1
1 0 2 2
2 0 0 3
3 2 0 4
我想试一试如下:
cols_of_interest = ['a','b'] #Drop rows if zero in all these columns
我有一个包含100多个列和1000 s行的数据,但是基本结构是
Index 0 1 2
0 AAA NaN AAA
1 NaN BBB NaN
2 NaN NaN CCC
3 DDD DDD DDD
我想添加两个新列,一个是和id,等于每一行中的第一个值,第二个是每一行中值的计数。看起来会是这样的。要清除,所有行都具有相同的值。
Index id count 0 1 2
0 AAA
我有下面的表格,它是稀疏的,但也有重复的列。
+------------+---------+
| LX ID | ISIN |
+------------+---------+
| A | X |
| B | Y |
| | Z |
| B | |
| | X |
| A | |
| B | Y |
| A | X |
+-
我的数据有75130行×36列,我计划用模式填充一些列的'NA‘,一些列用中值填充。我刚刚了解了计算机,并开始在我的数据集上进行练习。
An example of my dataFrame:
y1 y2 y3 y4
0 2 Nan 1 0.3
1 Nan Nan 2 0.4
2 2 Nan 3 1.0
3 3 Nan 4 2.0
4 4 Nan Nan Nan
5