对于下面的代码,我得到一个ValueError:预期的2D数组,得到一维数组错误消息。
因此,我也尝试了scaler.fit_transform(df[0]).reshape(-1,1),而不是下面的最后一行,但是得到了相同的错误。我如何转换一个熊猫系列,以便我可以使用科学工具包学习StandardScaler缩放它?
In [1]: import numpy as np
...: import pandas as pd
...: from sklearn.preprocessing import StandardScaler
...: from sklearn.mod
我从一个文件中读取了一个4D数组,该文件以2D形式i,j,k,x,y,z给出。我使用numpy.reshape将2D数组重塑为它的3-D形式。对此进行更改后,我希望以与读取时完全相同的顺序/格式写入文件。我不明白如何“反转”numpy.reshape以将其放回相同的格式。
import numpy as np
import pandas as pd
from pandas import read_csv
header = read_csv("Input/Grid1_test.csv", nrows=1,skipinitialspace=True)
print h
在我看来,它就像是pandas.Series中的一个bug。
a = pd.Series([1,2,3,4])
b = a.reshape(2,2)
b
B具有系列类型但无法显示,最后一条语句给出异常,非常长,最后一行是"TypeError:%d format: a number is required,not numpy.ndarray“。b.shape返回(2,2),这与它的类型Series相矛盾。我猜可能是pandas.Series没有实现重塑功能,而我正在从np.array调用版本?有没有人也看到了这个错误?我在pandas 0.9.1。
同样的问题也发布在pydata google group上。
我想做一个自定义的连接,即使用group by对象中的行来创建新的cols。
下面是一个人为设计的例子:
Input data frame
name age
foo 12
bar 14
df = pandas.DataFrame({ 'name':['foo','bar'],'age': [12,14] })
expected output, a pandas data frame with four cols
foo 12 bar 14
P
我有一些代码,这些代码首先根据特定的标准选择数据,然后在Pandas数据框架上应用groupby应用程序。有时,数据只有一个与标准匹配的组。在这种情况下,Pandas将返回行向量而不是列向量。例子如下:
In [50]: x = pd.DataFrame([(round(i/2, 0), i, i) for i in range(0, 10)], column
...: s=['a', 'b', 'c'])
In [51]: x
Out[51]:
a b c
0 0.0 0 0
1 0.0 1 1
2 1.0
下面的代码运行良好。但现在它抛出了以下错误: AttributeError: 'Series' object has no attribute 'reshape' 代码: from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import statsmodels.formula.api as sm
from matplotlib import cm
csv = pd.read_csv('
我正在尝试从一个虚拟的csv文件中提取数据,以便在tensorflow中使用。虚拟数据只有两列:X(单个特征列)和Y(预期输出)。
X Y
11.0 13.0
23.0 33.3
... ... and so on
现在,我像这样读取数据:
import pandas as pd
dummy_data = pd.read_csv("dummy_data.csv", sep=",")
inputX = dummy_data.loc[:, 'X'].values
np.reshape(inputX, [11, 1])
我正在重塑nu
我有以下功能
import math
import pandas as pd
import pandas_datareader as web
import numpy as np
import matplotlib.pyplot as plt
import os.path
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM, Dropout
from t
假设我有一个一维数组:
import numpy as np
my_array = np.arange(0,10)
my_array.shape
(10, )
在Pandas中,我想使用这个数组创建一个只有一行和10列的DataFrame。FOr示例:
import pandas as pd
import random, string
# Random list of characters to be used as columns
cols = [random.choice(string.ascii_uppercase) for x in range(10)]
但当我尝试时:
pd.Data
我正在用火把开发CNN。我的模型在没有增强的训练和测试集上都有很好的准确性,但是我想学习增强,所以我使用了火炬视觉变换来增强,在应用了增强模型之后,开始做最坏的事情,损失也没有减少。所以我试着调试并观察到增强的图像看起来是扭曲的/出乎意料的,有人能帮我解决这个问题吗?
自定义数据集
class traindataset(Dataset):
def __init__(self,data,train_end_idx,augmentation = None):
'''
data: data is a pandas dataframe g
我有一个数字数组,如下所示:
import pandas as pd
import numpy as np
np.random.seed(10)
data = np.random.randint(0, 10, size=(1000, 4, 3))
我希望能够将这些数据压缩成一个包含12列和1000行的df。
我所做的是:
df = pd.DataFrame( index=range(data.shape[0]))
for i in range(data.shape[1]):
for j in range(data.shape[2]):
df[str(i)+'_
我试着在dataset上使用我的机器学习模型,在这里我只有两列,而标准缩放它们,我得到了预期的错误2D数组,但得到了1。
以下是代码:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Importing the dataset
dataset = pd.read_csv('Position_Salaries.csv')
X = dataset.iloc[:, 1:2].values
y = dataset.iloc[:, 2].values
# Splitting the da
当尝试应用到datetime时,我得到了不可散列的TypeError: unhashable类型:'numpy.ndarray‘。问题是,当应用iloc时,x不再来自pd类型。那么我应该怎么处理这个案例呢? X列的日期类似于21/10/2020 from pandas import read_csv
from matplotlib import pyplot
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import numpy as np
#import
我想从pandas DataFrame df创建一个热图。df有两列: name test
aa False
bb False
cc True
dd False 热图应该包括X轴上的name值和Y轴上的test值。因此,基本上应该有两行-在Y轴上的False和True。当test值为False时,假正方形标记为红色。当test值为True时,True正方形标记为绿色。 这是我当前的代码: import pandas as pd
import seaborn as sns
Index= df["name"].values
Cols = [True,
字符串的列表。
我想把它们按下面的格式排列。每3行一组,从左到右,从上到下:
通过重塑,我只能做到以下几点:
import pandas as pd
import numpy as np
data = [
"by Emily Dickinson",
"There is another sky,",
"Ever serene and fair,",
"And there is another sunshine,",
"Though it be darkness there;",
"Ne
我已经尝试了几乎所有的东西,我知道有一种方式或东西,我错过了,我真的是新手在ML,但我真的希望任何帮助或解释。
df["Date"] and df["Open"] are arrays like: [1,2, ..., 10]
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
df = pd.read_csv('AAPL.csv')
clf = LinearRegression()
i = 0
for date in
我有一个pandas DataFrame,每个单元格都是一组数字。我想要遍历DataFrame,并在函数中运行每个数字和行索引。最具熊猫风格和效率的方式是什么?下面是一个使用for循环实现的示例,但我希望有更好的方法。 def my_func(a, b):
pass
d = {"a": [{1}, {4}], "b": [{1, 2, 3}, {2}]}
df = pd.DataFrame(d)
for index, item in df.iterrows():
for j in item:
for a in list(j
我试图用Pandas创建一个简单的dataframe。我使用python脚本来获取存储在数组中的所有地址之间的距离矩阵。我成功地创建了一个值数组,但是DataFrame需要一个数组。
import googlemaps
import pandas as pd
gmaps = googlemaps.Client(key='MYKEY')
addys = ['New York, NY','Boston, MA']
addyMeters = []
for origin in addys:
for dest in addys: