我遇到了一个错误,试图在Pandas中对列进行排序。这个代码段运行得非常好,将“col”与其自身进行比较(例如,AAPL col是同行中最小的)。
df1 = df[['col a', 'col b', 'col c']]
df1 = df1[:5]
df1['rank'] = df1['col a'].rank(axis=0)
print(df1)
col a col b col c rank
ticker
我有一个数据文件x:
T
0 1.0
1 2.0
2 NaN
3 4.0
4 5.0
5 6.0
6 7.0
如果值不是NaN,我想将2乘成累积最大值。
编写的代码:
for i in range(len(x)):
print(i)
if math.isnan(x["T"].iloc[i]):
continue
else:
x["T"].iloc[i] = x["T"].iloc[:i+1].cummax() * 2
但我发现了错误:
No axis n
我在python 3.X中使用了Pandas 0.20.3,我想从另一个熊猫数据框架中添加一列到熊猫数据框架中。这两个数据帧都包含51行。因此,我使用了以下代码:
class_df['phone']=group['phone'].values
我收到以下错误消息:
ValueError: Cannot set a frame with no defined index and a value that cannot be converted to a Series
class_df.dtypes给了我:
Group_ID object
YEAR
编辑:解决了问题,我认为问题在于Elmo推理生成的多维数组。我对所有向量进行平均,然后使用句子中所有单词的最后平均向量作为输出,它现在用于转换为数据帧。现在,我必须使它更快,将检查回使用线程。
尝试使用ElmoForManyLangs经过预先训练的模型,从github中为一个吡火花数据帧中的句子生成Elmo嵌入。但是,我无法将结果对象转换为dataframe。
import sys
from pyspark.sql.functions import split
import pandas as pd
import numpy as np
from pyspark.sql.functions
我使用zip来比较两个系列的Max_Plot2015_serie、Max_Plot2005_2014_serie,并将这两个系列的最大值返回给一个新的系列max _Scat-2015‘Temp_Celcius’。如何导入相应值的索引(索引是日期)?我是Python新手,对函数掌握得不太好
Max_scatter2015['Temp_Celcius'] = [max(value) for value in zip(Max_Plot2015_serie, Max_Plot2005_2014_serie)]
Max_Plot2005_2014_serie
2014-12-25
import pandas as pd
d = {"col1":[1,2], "col2":[3,4]}
df = pd.DataFrame(data = d)
print(type(df.col1))
print(type(df["col1"]))
for index, col1 in df.col1.items():
pass
for index, col1 in df["col1"]:
pass
这一产出如下:
<class 'pandas.core.series.Series'&
我得到了一个错误:
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
尽管如此,我并没有评估任何声明。当我试图传递这个错误时出现了这个错误
max_sharpe_idx = np.argmax(results[2])
其中,以前将结果作为
results = np.zeros((3,num_portfolios), object)
results2是一个浮点数的数组。
为什么要提出这个错误,我不能理解,有什么想法吗?如果需要,可以提
我正在尝试使用apply对Herfindahl索引求值。我已经通过将数据帧转换为numpy矩阵来做到这一点。实际上,函数evalHerfindahlIndex工作得很好,它计算每一行的Herfindahl索引的正确值。然而,当我试图使相同的函数(evalHerfindahlIndexForDF)使用apply时,我得到了一个非常奇怪的错误:
ValueError: ("No axis named 1 for object type <class 'pandas.core.series.Series'>", 'occurred at index
我的代码返回ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
我想比较两个日期,如果是最晚的日期,做点什么
dlast= datetime.strptime(df.index[-1], '%Y-%m-%d')
dnow = pd.to_datetime(date_mode, format='%Y, %m, %d').dt.date
if dlast<dnow:
print "
我正在尝试从包含熊猫的DataFrame中的所有元素中减去一个数字。然而,只有第一个元素被减去,其他元素得到NaN。 下面是数据: DataFrame_3x5.csv A B C
0.1 0.3 0.5
0.2 0.4 0.6
0.3 0.5 0.7
0.4 0.6 0.8
0.5 0.7 0.9 下面是我的代码: import pandas as pd
data = pd.read_csv(r"DataFrame_3x5.csv")
df = pd.DataFrame(data)
medianList = pd.DataFrame()
for i in range
一直在寻找从dataframe中的字符串列中获取字符串变量的方法。在最基本的场景中,我有一个名为name的字符串变量,它根据空格拆分得到一个字符串列表(在本例中称为name)。然后,将列表作为参数发送给函数,以处理列表中的每个元素: name = "4 PAWS ONLY"
type(name) #String type
names= name.split()
type(names) #list type
print(names) #['4', 'PAWS', 'ONLY']
#avg_vector needs a list
示例
玩具数据表:
>>> df = pd.DataFrame({'a': ['the', 'this'], 'b': [5, 2.3], 'c': [8, 11], 'd': ['the', 7]})
产量:
>>> df
a b c d
0 the 5.0 8 the
1 this 2.3 11 7
以及:
>>> df.dtypes
a object
b
问题试图在简单的 (可下载的csv)上进行群比,然后通过agg返回列的聚合值(大小、和、平均值、std偏差)。一个看似简单的问题是给出一个出乎意料的具有挑战性的错误。
Top15.groupby('Continent')['Pop Est'].agg(np.mean, np.std...etc)
# returns
ValueError: No axis named <function std at 0x7f16841512f0> for object type <class 'pandas.core.series.Series
在尝试调试groupby函数应用程序时,我使用一个虚拟函数来为每个组“查看传递给函数的内容”的。当然,我在玩游戏:
import numpy as np
import pandas as pd
np.random.seed(0) # so we can all play along at home
categories = list('abc')
categories = categories * 4
data_1 = np.random.randn(len(categories))
data_2 = np.random.randn(len(categories))
df