我有两个不同的相同股票的数据,但一个数据有更多的数据和不同的价格。我想比较其中一列,看看它们的不同之处。(下面是一个较小版本的dataframes)
df
Date Open Close
2007-03-22 3.65 1.0
2007-03-23 3.87 1.0
2007-03-26 3.83 1.0
2007-03-27 3.61 1.0
2007-03-28 4.65 1.0
df2
Date Open Close
2007-03-22 3.15 1
我有一个包含海洋界限的.shp文件。但是,我只对6感兴趣,而不是绘制所有它们。Geopandas创建了类似的数据帧(让我们称之为"df"),就像Pandas一样。有没有可能创建一个新的数据帧("df1"),只包含那些选定的"df“区域?
from mpl_toolkits.basemap import Basemap
import numpy as np
import matplotlib.pyplot as plt
import geopandas as gp
tes = gp.read_file(r'your\path\World_Seas
我有以下数据帧:
price sales
0 9611.89 0.013477
1 9611.88 0.032521
2 9611.87 0.047571
3 9611.86 0.107571
4 9611.81 0.257285
for i in df['price']:
if i < 9611.87:
print(i)
break
上面的循环返回正确的价格。现在,我希望它打印sales列中i的相应值0.107571
以下代码不起作用
for (i, ii) in df:
if i
我有一个数据帧,我想要比较它们是否存在于另一个df中。
after_h.sample(10, random_state=1)
movie year ratings
108 Mechanic: Resurrection 2016 4.0
206 Warcraft 2016 4.0
106 Max Steel 2016 3.5
107 Me Before You 2016 4.5
我想要比较上面的电影是否存在于另一个df中。
让我定义一个简单的数据帧:
In [1]: df = pd.DataFrame({'a': [True, False], 'b': [1, 2]})
'a'列的数据类型存储为bool
In [2]: df['a'].dtype
Out [2]: dtype('bool')
如果我将'a'设置为数据帧的索引列:
In [3]: df.set_index('a', inplace=True)
索引列的数据类型现在为object
In [4]: df.index
Out [4]:
我正在尝试比较文件夹中每个csv文件中的数据帧。我想做一个代码来检测(cas>vref_new)或(vref>cas),它会给出一个结果,文件是不稳定的方法。下面是代码。 os.chdir("D:\TUGAS\TA\TUYS\Data TA dari Garuda\File Yut dan Dimas\SelesaiTA")
dflist=pd.DataFrame()
for file in os.listdir("D:\TUGAS\TA\TUYS\Data TA dari Garuda\File Yut dan Dimas\SelesaiTA"
我只是试着用熊猫对一些数据进行分类,基本上我的数据是一个字符串,我想根据X开头字符的值来修改它。
我试过这个:
data['BO In Code'].loc[data['BO In Code'][:2]=='XU']=1
提供不可对齐布尔级数键
这是:
data['BO In Code'].loc[str(data['BO In Code'])[:2]=='XU']=1
这是:
data['BO In Code'].loc[data['BO In Code'].
我有一个Pandas DataFrame,df,它有一个path列,其中包含用于分析的图像文件的路径。这个数据集中的一些图像实际上并不存在,因此我需要有选择地删除不存在的图像path的行。
目前,我正在遍历整个数据帧并重新分配它,如下所示:
for index, sample in df.iterrows():
if not os.path.isfile(sample['path']):
df = df.drop(index)
但是,由于我的数据集包含数以万计的图像,所以速度非常慢。
我还研究过使用更一般的问题中的方法
df = df.drop(df[n
我有一个名为namelist的列表,其中包含1000个名字和一个名为df_all的数据帧,其中包含所有1000个名字,但由于时间戳不同而具有重复的行。df_all的镜头是关于2000+的。
我想把这些数据分成单独的数据帧。
我的代码如下:
df_store = []
for i in range(len(namelist)) :
temp = []
for j in range(len(df_all)):
if(df_all['name'] == namelist[i]) :
temp1.append(df_all[j,:]:
我有一个初学者的问题。我有一个正在迭代的数据帧,我想检查column2行中的值是否为NaN,如果不是NaN,则对该值执行操作。我的DataFrame看起来像这样:
df:
Column1 Column2
0 a hey
1 b NaN
2 c up
我现在尝试的是:
for item, frame in df['Column2'].iteritems():
if frame.notnull() == True:
print 'frame'
其背后的思想是我遍历第2列中的行
我在使用xlsxWriter对齐Excel工作表的列时遇到问题。为了更清楚起见,这里是数据帧
Name Employee ID Year
John Miller 2014108 2014
Sarah Jones 2011548 2011
Jake Kenedy 2010546 2010
我正在尝试对齐Name列,以便值位于左侧而不是居中。
我试过了
workbook = writer.book
cell_format = workbook.add_format()
cell_format.se
我对Python比较陌生。如果我有以下两种类型的数据帧,假设分别是df1和df2。
Id Name Job Name Salary Location
1 Jim Tester Jim 100 Japan
2 Bob Developer Bob 200 US
3 Sam Support Si 300 UK
Sue 400 France
我想将df2中的' name‘列与df1进行比较,这样如果pe