使用Pandas用两个DataFrames处理数据_使用Pandas合并两个DataFrames_使用两个DataFrames的Pandas分组求和 - 腾讯云开发者社区

我应该使用哪种方法来连接Pandas中的两个数据文件，如： before: dataframes1 =[1,2,3,4,5,6] dataframes2 =['a','b','c','d','e','f'] after: ['1a','2b','3c','4d','5e','6f']

浏览 4提问于2022-04-26得票数 -2

回答已采纳

2回答

pandas函数中的变量而不是数据帧名称

、

我有像这样的东西 df3 = pd.merge(df1, df2, how='inner', left_on='x', right_on='y') 但我希望用变量来表示这两个数据帧： df3 = pd.merge(df_var, df_var2, how='inner', left_on='x', right_on='y') 我收到此错误: ValueError:无法将DataFrame与类型的实例合并我一直纠结于如何让pandas将变量识别为dataframe的名称。谢谢!

浏览 1提问于2018-06-19得票数 0

3回答

“DataFrame”对象没有属性“withColumn”

、

我正在尝试比较两个pandas数据帧，但是我得到一个错误，因为'DataFrame‘对象没有'withColumn’属性。可能的问题是什么？ import pandas as pd import pyspark.sql.functions as F pd_df=pd.DataFrame(df.dtypes,columns=['column','data_type']) pd_df1=pd.DataFrame(df1.dtypes,columns=['column','data_type']) pd.merge(

浏览 24提问于2019-07-11得票数 2

1回答

python的Pandas数据结构用来做什么？

、

pandas中至少有四个数据struts。 ->Slice ->DateFrame ->DateMatrix ->Panel 它们的用例是什么。文档似乎突出了slice和DataFrame。请举例说明用例。我知道博士在哪。

浏览 0提问于2012-04-04得票数 1

回答已采纳

1回答

自动在文件夹中搜索特定的excel文件并导入pandas

、、、、

到目前为止，我还没有在任何地方看到我要问的问题。我有两个excel文件在一个文件夹中，比如说RedRose，在C盘上。文件以date 09-30-2019_rest_of_name1，...name2开头。_rest_of_name1和...name2是静态的，只有日期是每天更新的，因为每天都有新文件添加到RedRose文件夹。使用Python on Run命令，我想自动查找该文件夹，搜索每个文件名，并将每个文件导入到它自己的pandas数据帧中。想一想，这可以用Python来完成吗？不知道从哪里开始

浏览 18提问于2019-10-02得票数 1

3回答

如何将多个变量传递给python中的函数？

、

我想比较几对pandas数据格式中的一个列，并将共享值写入一个空列表中。我已经编写了一个函数，它可以用一对数据文件来完成这个任务，但是我似乎无法将它放大。 def parser(dataframe1,dataframe2,emptylist): for i1 in dataframe1['POS']: for i2 in dataframe2['POS']: if i1 == i2: emptylist.append(i1) 其中'POS

浏览 15提问于2015-04-20得票数 0

回答已采纳

2回答

过滤Pandas数据文件和覆盖不会改变数据格式。

、、

我试图对两个数据文件执行相同的操作(过滤)，但是由于某种原因，数据文件不会被更改。我怀疑这与视图与数据副本问题有关，但我无法找到解决问题的答案。下面是一个复制问题的简化代码： In [1]: import pandas as pd df1 = pd.DataFrame(data = [(1,2,3),(4,5,6),(7,'a',9)], columns = ['a','b','c']) df2 = pd.DataFrame(data = [(1,2,3),(4,'a',6),(7,8,9)], co

浏览 3提问于2015-10-23得票数 2

回答已采纳

1回答

如何在熊猫获得ValueError中混合多个数据

、、

在使用Anaconda3 Spyder的Pandas中，我正在运行以下DataFrame合并摘录：我有两个数据格式，其结构如下： aur.columns ['Date','No','Clos'] bal.columns ['Date','No','Clos'] 两者都是Pandas DataFrames 我需要将它们合并到具有相同结构的另一个数据框架中： merg.columns ['Date','No','Clos'] 它们之间常见的列是“D

浏览 5提问于2017-11-22得票数 2

回答已采纳

2回答

朱莉娅熊猫-如何将数据附加到一起

、、、

与Julia1.0一起工作，我有大量的数据帧，我使用熊猫(read_csv)读到了朱莉娅，我正在寻找一种方法将它们全部添加到一个大数据框架中。由于某种原因，“追加”函数没有做到这一点。以下是一个简化的例子： using Pandas df = Pandas.DataFrame([[1, 2], [3, 4]], columns=['A', 'B']) df2 = Pandas.DataFrame([[5, 6], [7, 8]], columns=['A', 'B']) df[:append](df2) #fails

浏览 0提问于2018-09-20得票数 0

回答已采纳

2回答

多个DataFrame到Excel

、

如何将多个数据框导出到一个Excell工作表。我有两个数据帧。有时它可以是2个以上的数据帧。 cars = {'name': ['Audi','VW'], 'modell': ["A4","Golf"] } cars2 = {'name': ['BMW','MB'], 'modell': ["3er","e-class"] } df = pd.DataFrame(car

浏览 3提问于2021-02-11得票数 0

1回答

如何在合并多个文件时修复pandas合并函数错误

、

我有几个用制表符分隔的文件，前2列相同。我正在尝试使用pandas合并功能合并这些文件。我用glob和read_csv函数把所有的文件做了一个数据帧。一切看起来都很好直到这里。pandas合并函数抛出错误如下。pd concat运行良好，但这不是我想要的，因为它在当前文件下添加新文件。请帮我找一下用法。 path = r'/data/tim/home/*' file = glob.glob(path + "/sale.txt") df = (pd.read_csv(i,delimiter='\t') for i in files)

浏览 0提问于2019-08-01得票数 0

1回答

Python Pandas合并将不起作用

、、、

我有两个Python Pandas DataFrames： Inventory_Info (20行)： Group, Facility, Unit, Room, HardwareAddress 'Generic Hospital Group', 'Generic Hospital', 'Generic Hospital Ward', 'Generic Hospital Room', 5715 Data (47行)： Serial_Number, Last_Server_Check, Num_Check_Ins, HardwareA

浏览 2提问于2017-01-19得票数 0

1回答

Python多处理工具vs Py(Spark)

、、、、

这是一个新手问题，因为我越来越迷惑pyspark。我想扩展现有的python数据预处理和数据分析管道。我意识到如果我用pyspark划分我的数据，我不能再把每个分区当作一个独立的pandas数据框架，需要学习如何使用pyspark.sql的行/列函数来操作，并修改很多现有的代码，再加上我一定会触发mllib库，而不能充分利用更成熟的scikit-learn包。那么，如果我可以使用多处理工具进行集群计算并并行现有数据帧上的任务，那么我为什么还需要使用Spark呢？

浏览 2提问于2017-06-15得票数 6

1回答

Pandas中两种DataFarne (父本和衍生DF)的比较存在问题

请您看一下笔记本中的这个Pandas，让我知道为什么在比较两个数据帧时我会得到ValueError: Can only compare identically-labeled DataFrame objects错误。 import pandas as pd series = [('Stranger Things', 3, 'Millie'), ('Game of Thrones', 8, 'Emilia'), ('La Casa De Papel', 4, 'Sergio'),

浏览 10提问于2022-06-29得票数 -1

1回答

如何在influxdb的查询数据上作图？

、、、、

我正在使用python中的Influx DataFrameClient来检索数据： from influxdb import DataFrameClient cli = DataFrameClient(host='localhost',port = 8086,database='rahul') q= cli.query('select * from cpu') print(q) 但是这个查询检索dict格式的数据时有很多不正确的头移位(这让我很惊讶)： defaultdict(<type 'list'>, {u

浏览 0提问于2018-08-14得票数 0

1回答

将多个数据文件写入Excel文件中的多个工作表

、

我有两个数据框架，我想每一个写到自己的工作表在一个Excel文件。下面的代码实现了我想要的结果： import pandas as pd df_x = pd.DataFrame({'a':[1, 2, 3]}) df_y = pd.DataFrame({'b':['a', 'b', 'c']}) writer = pd.ExcelWriter('df_comb.xlsx', engine='xlsxwriter') df_x.to_excel(writer, sheet_nam

浏览 4提问于2022-07-22得票数 0

回答已采纳

1回答

如何将一只熊猫变成朱莉娅DataFrame (使用PyJulia)并返回到pandas

、、、、

我想使用PyJulia来加速代码的某些部分 import numpy as np import julia import pandas as pd import random from julia import Base from julia import Main from julia import DataFrames n = 100000 randomlist = [] for i in range(0,n): num = random.randint(1,100) randomlist.append(num) data = { 'Score'

浏览 4提问于2020-09-03得票数 2

回答已采纳

2回答

重复将多个Panda数据名导出到多个csv文件的任务

、、、

我对Pandas/Python有些陌生(更深入地了解SAS)，但我的任务如下:我有四个Pandas数据帧，我想将它们分别导出到一个单独的csv文件中。csv的名称应与原始数据帧(forsyning.csv、inntak.csv等)相同。到目前为止，我已经用数据帧的名称创建了一个列表，然后尝试将该列表放入一个for循环，以便生成一个接一个的csv。但我只做了一半。到目前为止我的代码如下： df_list = ['forsyning', 'inntak', 'behandling', 'transport'] for i in

浏览 8提问于2021-01-27得票数 2

回答已采纳

2回答

C#.NET中的熊猫数据帧或类似数据帧

、、、、

我目前正在致力于实现早期用Python语言构建的Gurobi线性编程模型的C#版本。我有许多CSV文件，我从这些文件中导入数据并创建pandas数据帧，我从这些数据帧中提取列以创建我在线性程序中使用的变量。使用dataframe创建变量的python代码如下： dataPath = "C:/Users/XYZ/Desktop/LinearProgramming/TestData" routeData = pd.DataFrame.from_csv(os.path.join(dataPath, "DirectLink.csv"), index_col=None)

浏览 0提问于2018-04-27得票数 25

回答已采纳

2回答

如何让我的程序读取多个txt文件并将其创建到python的dataframe中？

、、、

目前，我正在制作一个程序，循环通过多个txt文件，并将它们转换为数据帧，以便可以分析数据。我已经使用glob函数返回了txt文件的列表。在此之后，我创建了一个for循环，循环遍历列表中的每一项。然后，我使用data.head()函数来打印数据，使用read_csv函数来读取该数据。我知道我的代码可能真的很愚蠢，但请帮我解决它。我现在不知所措。以下是我的原始代码： import glob import pandas as pd path = '/content/gdrive/My Drive/Datapoints/*.txt' dataframes = [] for filen

浏览 11提问于2020-05-29得票数 0

3回答

计算多个pandas数据帧的百分比变化

、、

假设我有两个截然不同的pandas数据帧，它们具有完全相同的结构： df1 +---+---------+------+------+------+ | | summary | col1 | col2 | col3 | +---+---------+------+------+------+ | 0 | count | 10 | 10 | 10 | +---+---------+------+------+------+ | 1 | mean | 4 | 5 | 5 | +---+---------+------+------+------+ | 2

浏览 22提问于2019-08-12得票数 1

回答已采纳

1回答

从dict_values创建pyspark

、、、、

我正在尝试从dict_values中生成一个pyspark。我可以用熊猫来实现同样的功能。字典由键作为年份，值作为。这是我正在使用的代码，我有一个选择，可以将所有的数据文件合并起来，我认为这不是实现它的更好的方法。 dict_ym = {} for yearmonth in keys: key_name = 'df_'+str(yearmonth) dict_ym[key_name]= df # Add a new column to dataframe # Perform some more transformation dict_

浏览 2提问于2017-10-10得票数 0

回答已采纳

1回答

获取一个AttributeError：'dict‘对象没有属性'parse’。当尝试读取多个xlsx文件时

、、、

你好，我试图读取和打开两个excel文件到一个数据框架，但我得到了这个错误。 AttributeError: 'dict' object has no attribute 'parse' 我的目标是使用熊猫并将这两个xlsx文件合并到一个数据框架中。我该怎么做。下面是我的代码： # import modules from IPython.display import display import pandas as pd import numpy as np pd.set_option("display.max_rows", 999) pd.se

浏览 5提问于2017-01-25得票数 2

回答已采纳

1回答

在有序列表中合并数据

、、

我有一个数据字典(opdict)，根据它的键值进行排序。这给了我一个元组列表(oplist)，其中的元组包含两个元素:索引0包含opdict的键值，索引1包含opdict的值(dataframes)。我的问题是，如何将oplist中的所有数据行合并为一个单独的dataframe (opdf)，即首先将所有数据的第一行叠加到oplist中，然后将所有数据的第二行叠加到oplist中，等等。我有一种感觉，pandas.concat或pandas.join是要走的路，但我不确定正确的代码。谢谢你的帮忙!

浏览 5提问于2020-02-15得票数 1

回答已采纳

1回答

如何从Quandl连接/合并两个数据帧？

、、、

具体而言，我使用Python2.7。我从Quandl读取和打印两个数据帧：'FMAC/HPI_AK‘和'FMAC/HPI_CA’，没有问题。我使用merged = pd.merge(df1, df2, on = 'Date', how = 'outer')来合并这两个数据帧。但是，当我试图合并这两个数据帧时，我会得到一个跟踪，表示keyerror: 'Date' where 'Date‘是两个数据帧中第一个/索引列中的属性。 import quandl import pandas as pd api_key = open

浏览 7提问于2017-04-15得票数 2

回答已采纳

1回答

火花公子熊猫TypeError当尝试连接两个数据文件

、、、

当我试图连接两只熊猫数据时，我发现了下面的一个错误： TypeError: cannot concatenate object of type 'list; only ps.Series and ps.DataFrame are valid 一开始，我认为这是因为一种包含某列列表的数据格式。因此，我尝试将两个不包括列中列表的数据文件连接起来。但我也犯了同样的错误。为了确定，我打印了数据格式类型。他们都是pandas.core.frame.DataFrame。为什么我会有这个错误，即使它们不是列表？ import pyspark.pandas as ps split_col = spli

浏览 8提问于2022-11-28得票数 0

回答已采纳

1回答

如何比较来自两种不同数据的数据

、、

我试着用Python来比较两只熊猫的数据。我有一个列，这是一个常见的在他们两个，但他们有不同的名字。第一列的名称是“档案”，第二栏的名称是“Código da transa o”。总之，我创建了这个函数来比较数据，但是在这些行中我发现了错误.为什么会发生这种事？ def checar_valor(a,b): for i in range(len(a)): if b.isin([a['File'][i]]): #ERROR print("O valor %s está presente nos dois dataframe

浏览 0提问于2019-01-14得票数 1

回答已采纳

1回答

使用pandas将多个csv文件读取到单独的数据帧中

、、

我喜欢将特定文件夹中的两个csv文件读取到两个单独的数据帧中。这两个文件名是: 23314621_MACI_NAV.CSV和23314623_MACI_Holding.CSV 文件名的第二部分是固定的MACI_NAV.CSV和MACI_Holding.CSV，但是文件名的第一部分是数字，每天都在变化。我喜欢通过尝试将它们读入两个不同的数据帧中： import pandas as pd import glob msci_folder = 'N:/Operation/Daily CDS E_Report/CDS/MACI/' mscifile = glob.glob(msci

浏览 1提问于2018-08-29得票数 4

1回答

使用fuzzyWuzzy在Name值上高效地连接两个pandas数据帧

、

我有两个数据框的名称值不匹配。例子: John Johnson ->小约翰·约翰逊。我需要将这些名字匹配到某个阈值。我使用了fuzzy-wuzzy，但我找不到一种有效的方法。我试着像这样遍历两个数据框 for index, _ in df.iterrows(): for index_two, _ in df2.iterrows(): if fuzzy.ratio(df.at[index, 'Name'], df2.at[index_two, 'Name']) > 85: df.at[index, 'val

浏览 16提问于2021-10-05得票数 1

回答已采纳

1回答

熊猫在两种不同的dataTable上合并操作？

、、

我有两个给定格式的不同数据表：现在，我想要两个合并这个dataTable，其中dataTable1(数字和字符串)的最后一个顶点和dataTable2(数字)的第一个顶点具有共同的值。我想在这个公共值中合并，而不想要两个表中没有的任何其他行。我用熊猫做这个，我的代码是 import numpy as np` import pandas as pd sellOrder = pd.read_excel('Europe_SO.xlsx') purchaseOrder = pd.read_excel('Atlas PO.xlsx') final = p

浏览 1提问于2017-11-02得票数 0

回答已采纳

1回答

结合两个部分："ValueError:数组长度1不匹配索引长度586“

、

我正试图从以前从CSV获得的一些数据中构建一个新的数据框架，并对其进行一些计算，比如 addtest = pd.DataFrame({'coordinates': 123456, 'level1': RainD.level, 'coordinates1': 789, 'level2':RainD2.level}) 在上面的示例中，level1和level2只是从CSV导入的级别，没有任何应

浏览 1提问于2015-03-16得票数 0

2回答

熊猫连接不同列的数据格式: AttributeError：'NoneType‘对象没有属性'is_extension’

、、

我正在尝试连接两个数据文件，它们在0轴上有不同的列名。我在这里发现了一个类似的问题，，但是这个解决方案不适用于我，因为我的两个数据格式的列名不一样。由于我的原始数据太大，无法在这里发布，下面的示例应该说明我正在尝试做什么： df1 = pd.DataFrame(np.random.randint(0,100,size=(1, 4)), columns=list('ABCD')) df2 = pd.DataFrame(np.random.randint(0,100,size=(1, 4)), columns=list('EFGH')) #df1 A

浏览 0提问于2019-02-14得票数 14

回答已采纳

1回答

如何从我的main.py脚本访问我的蜘蛛数据？

、、

假设我已经用这个文件夹结构启动了一个Scrapy项目： .root ├── main.py ├── scrapy.cfg ├── app │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ ├── my_spider.py 因此，在main.py文件中，我有： #!/usr/bin/env python import scrapy from app.spiders.my_spider import MySpider from scrapy.crawle

浏览 0提问于2019-05-12得票数 0

1回答

为什么熊猫不创建一个excel文件？

、、

我试着用熊猫创建一个excel文件，作为我生成的一个数据库。我两次都试过： import pandas as pd # write database to excel df = pd.DataFrame(database) # Create a Pandas Excel writer using XlsxWriter as the engine. writer = pd.ExcelWriter('fifa19.xlsx', engine='xlsxwriter') # Convert the dataframe to an XlsxWriter Exce

浏览 1提问于2018-11-03得票数 1

1回答

JuliaDB或DataFrame比平面数组快吗？

我想知道普通数组与JuliaDB或DataFrame在对大型数据集(大型但仍然适合内存)上的计算性能是否存在差异？我可以使用简单的数组和算法来进行排序、分组、缩减等等，那么为什么我需要JuliaDB或DataFrame呢？我有点理解Python为什么需要Pandas --因为它将缓慢的python转化为快速C，但是为什么Julia需要JuliaDB或DataFrame -- Julia已经快了。

浏览 0提问于2018-03-26得票数 10

回答已采纳

1回答

使用来自SQL Server的数据通过Pandas创建CSV文件

、、、

我有一个保存材料数据的SQL Server数据库，我需要这些数据将材料的总使用量放入CSV文件中。我可以毫不费力地将所有数据输出并打印到终端，但是当尝试使用Pandas并将其放入带有命名列的CSV中时，我得到的结果是Pandas用SQL输出的每一行重写了第一行。我没有让Pandas创建CSV，但我可以在终端重写来自SQL的每一行的第一行中看到它。我使用一个函数从SQL中获取每一行。 import pyodbc import pandas as pd def checkmaterials(): server_name = '********' db_name

浏览 13提问于2020-08-20得票数 0

回答已采纳

1回答

python:如何将熊猫数据与VAEX连接起来

、、、

我想将数千个数据文件加入到一个VAEX中，下面是我所拥有的文档：我知道： df_vaex = vaex.DataFrame() for i,file in enumerate(files): df = pd.read_pickle(file) df_vx = vaex.from_pandas(df=df, copy_index=False) df_vaex.concat(df_vx) if i%100 == 0: print(i) 这不管用。如何读取和连接金库中的数据？我得到的错误是，vaex没有方法concat: AttributeErr

浏览 8提问于2022-10-21得票数 0

回答已采纳

2回答

两个dfs之间的减法得到NaN值

、、

我有一个17520行1,000列的numpy.ndarray。np.ndarray只有两个值[0,0.05]。我想修改值为0.05的单元格，以便在0和0.05之间随机选择。为了做到这一点，我使用了post Random choice over specific values of a DF推荐的以下函数 import pandas as pd df = pd.DataFrame(df) df.update(np.random.choice([0, 0.05], size=df.shape), filter_func=lambda x: x==0.05) 这个解决方案起作用了，但是，我

浏览 21提问于2019-02-19得票数 0

回答已采纳

1回答

MemoryError熊猫

、

我试图使用data.frames合并两个pandas，但是我得到了一个内存错误。这可能是一个内存问题，因为我的文件有大约40,000,000行(df1)和80,000,000行，有5列(df2a)，但是，当我试图将其他类似的文件合并到90,000,000行和5列(df2b)时，合并就会工作。这是我的代码： # Merge the files with pandas python import pandas as pd # Read lookup file from GTEx df1 = pd.read_table("GTEx.lookup_table.txt.gz", co

浏览 0提问于2018-08-24得票数 1

1回答

创建拼写相似的pandas数据框变量名称列表

、、、

在我的环境中，我有一个由几个pandas数据帧组成的列表，它们的名称类似。例如： import pandas as pd import numpy as np df_abc = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD') df_xyz = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD') df_2017 = pd.DataFrame(np.random.randn(

浏览 0提问于2017-06-19得票数 1

1回答

如何合并两个不同行大小的数据帧？

、、

因此，当我尝试放置不同大小的dataframe时，总是导致错误。 import pandas as pd from pandas import Series,DataFrame import numpy as np # For reading stock data from yahoo import pandas_datareader as web # For time stamps from datetime import datetime closing_df = web.DataReader(['AAPL','GOOG','MSFT'

浏览 11提问于2019-11-27得票数 1

回答已采纳

1回答

如何使用assert_frame_equal()断言数据文件中的所有值，而不会在失败时退出

、、、、

我是python和dataframes的新手。目前，我正在尝试将2个数据格式与assert_frame_equal()函数进行比较。 df1= a b 0 1 3 1 2 4 df2= a b 0 2 3.0 1 2 4.0 代码： import pandas as pd from pandas._testing import assert_frame_equal def test_compare_src_trg(): df1 = pd.DataFrame({'a': [1, 2],

浏览 10提问于2021-12-08得票数 1

1回答

使用字典中的头访问数据帧

、、

我正在通过读取一些XLS文件 import os import pandas as pd path = r'pathtofolder' files = os.listdir(path=path) dataframes = {} for file in files: filepath = path + '\\' + file if filepath[-3:] == 'xls': print(file) dataframes[file] = pd.read_excel(filepath) 但是，由

浏览 0提问于2018-05-26得票数 0

2回答

迭代不同的数据

、、、、

我试图迭代三个数据帧，以找出它们之间的区别。我有一个主数据框架，它包含所有内容，另外两个数据帧包含主数据帧的一部分。我正在尝试编写python代码来识别另外两个文件中缺少的内容。主文件如下所示： ID Name 1 Mike 2 Dani 3 Scott 4 Josh 5 Nate 6 Sandy 第二个数据框架如下： ID Name 1 Mike 2 Dani 3 Scott 6 Sandy 第三个数据框架如下： ID Name 1 Mike 2 Dani 3 Scott 4 Josh 5 Nate 因此，将有两个输出数据框架

浏览 1提问于2018-06-21得票数 2

回答已采纳

1回答

如何将Modin熊猫的数据附加到其他？

、、、、

我正在对围绕6GB的大型文件进行计算，每个文件中都有、Modin、熊猫、，我听说与熊猫相比，这是优化的。我需要以块的形式读取CSV文件，并对其执行计算，并将其附加到大型 dataframe 中，并再次将大数据文件转换为CSV文件。这对于Pandas来说是非常好的。但是处理小文件需要花费太多的时间。对于6GB文件，我甚至都无法想象。然而，当我试图对modin熊猫做同样的事情时，它无法将dataframe附加到一个大的数据文件中，而我想要转换为csv文件。有人能提出任何替代这个或解决方案的建议吗。 Python - 3.6 Pandas - 0.24.2 Modin Pandas - 0.

浏览 0提问于2019-06-15得票数 1

回答已采纳

1回答

为什么使用read_csv()创建的DataFrame与使用DataFrame()创建的具有相同数据的a不同？

、、、、

假设有一个csv文件，如下所示： # data.csv 0,1,2,3,4 a,3.0,3.0,3.0,3.0,3.0 b,3.0,3.0,3.0,3.0,3.0 c,3.0,3.0,3.0,3.0,3.0 d,3.0,3.0,3.0,3.0,3.0 现在我创建了两个数据帧:一个来自csv文件，另一个使用DataFrame()。我希望两个DataFrame是相等的。 # Read the csv file into a pandas.DataFrame A = pandas.read_csv('data.csv') # Create (same?) dataframe by

浏览 18提问于2019-09-12得票数 1

回答已采纳

2回答

如何对train_test_split从pandas.DataFrame创建的numpy数组中缺少的值进行推断？

、、

我正在使用sklearn和pandas.DataFrame处理大量NA值的数据集。对于基于dataFrame的列名的不同列，我实现了不同的估算策略。例如，NAs预测器'var1' I用0's计算，'var2'用平均值计算。当我试图使用train_test_split交叉验证我的模型时，它会返回一个没有列名的nparray。我怎么能把缺失的值归罪于这个nparray呢？我不会把丢失的值计算在原始数据集中，然后再故意分割，所以我会分别保存测试集和验证集。

浏览 0提问于2014-08-06得票数 2

回答已采纳

2回答

如何在一个循环中导入多个.txt文件，但不进行连接？

、、

在.txt (空格分隔)中，有许多(>40)数据文件具有相同的布局，我希望将这些文件读入python中进行数据处理和绘图。这些文件是一个参数扫描的模型输出，参数扫描在每个数据文件中占据一列。该参数将递增到每个连续文件中的下一个值。我遇到的问题是，我不知道如何编写for -循环，以便将每个数据文件读取到它自己的数据文件中。我已经看到了许多建议'pandas.read_csv‘后连接的答案，但是我不想将文件连接到一个数据帧中，因为我希望分别绘制每个数据集。对我来说，诉诸于连接一个dataframe而只需要随后分离出数据集是没有意义的。 import glob import os

浏览 1提问于2019-08-03得票数 1

回答已采纳

2回答

比较两个独立DataFrames中的数据并在Python中生成结果

、、、

我是Python新手，我试图用Python&Pandas生成类似的IndexMatch函数结果，尽管我很难让它正常工作。基本上，我有两个独立的DataFrames：第一个DataFrame ('market')有7列，虽然我只需要其中的3列(符号‘’日期‘，’关闭‘)。这个df有13,948,340行。第二个DataFrame ('transactions')有14列，但只有我只需要其中的两个列(‘I_符号’，'acceptance_date')。这个df有1,428,026行。我的逻辑是:如果i_symbol等于符号，accep

浏览 3提问于2017-03-31得票数 0

2回答

Python:熊猫记忆错误

、

我有一个相当大的数据集，大约有5287657列，大约有15列。我试图创建一个枢轴表，当我尝试创建MemoryError 时，它给了我一个DataFrame。以下是我所看到的错误信息： File "C:\Python27\lib\site-packages\pandas\core\frame.py", line 411, in __init__ arrays, columns = _to_arrays(data, columns, dtype=dtype) File "C:\Python27\lib\site-packages\pandas\core\frame.p

浏览 5提问于2013-03-26得票数 3