pandas块read_csv中的数据类型问题

文章/答案/技术大牛

发布

0回答

当运行此代码以在块中加载csv时，dtype0= df_i.dtypesfor df_i in list01:它只返回基于对象的。dept int64company

浏览 0提问于2017-01-06得票数 0

回答已采纳

3回答

将大型数据集加载到Pandas Python中

、、

我想从InstaCart 加载大型.csv (340万行，206k用户)开源数据集基本上，我在将orders.csv加载到Pandas DataFrame时遇到了问题。我想学习将大文件加载到Pandas/Python中的最佳实践。

浏览 3提问于2017-06-14得票数 1

3回答

在pandas.read_csv中，dtype和转换器有什么区别？

、、、、

熊猫函数read_csv()读取一个.csv文件。它的文档是转换器: dict，默认不对某些列中的值进行转换的函数。键可以是整数或列标签。在使用此函数时，我可以调用pandas.read_csv('file

浏览 3提问于2015-12-07得票数 37

回答已采纳

2回答

Pandas读取带有浮点值的csv文件时会出现奇怪的舍入和小数位数

、、、、

我有一个包含数值的csv文件，比如1524.449677。总是恰好有6位小数。当我通过pandas read_csv导入csv文件(和其他列)时，列自动获得数据类型object。我的问题是，这些值显示为2470.6911370000003，而实际上应该是2470.691137。或者，值2484.30691显示为2484.3069100000002。在某种程度上，这似乎是一个数据类型问题。通过将dtype参数设置为{'columnname&#

浏览 1提问于2017-11-19得票数 23

回答已采纳

1回答

ValueError:计算数据中的列与提供的元数据中的列不匹配

、、

在kaggle竞赛中，我正在处理一个有550万行的数据集。在熊猫中，读取.csv并处理它们需要几个小时。达斯克进来了。Dask速度很快，但有很多错误。

浏览 6提问于2018-09-10得票数 5

4回答

可以分块读取拼图文件吗？

例如，pandas的read_csv有一个chunk_size参数，它允许read_csv在CSV文件上返回一个迭代器，这样我们就可以分块读取它。拼图格式以块的形式存储数据，但是没有像read_csv这样的有文档记录的方法来读入块。有没有办法以块的形式读取拼图文件？

浏览 3提问于2019-11-29得票数 8

2回答

从Oracle读取包含数百万行的大表并将其写入HDF5

、、、

我正在使用一个具有数百万行和100+列的Oracle数据库。我尝试使用带有索引的pytables将此数据存储在HDF5文件中。我将在pandas DataFrame中读取这些数据的子集并执行计算。我尝试了以下几种方法：使用实用程序将表下载到csv文件中，使用pandas逐块读取csv文件块，并使用pandas.HDFStore附加到HDF5表。但是，现在当我尝试直接从Oracle DB下载数据并通

浏览 2提问于2013-12-17得票数 12

1回答

忽略pandas中数据类型不匹配的行

、、

在pandas中读取巨大的CSV时，我指定了数据类型 error_bad_lines=False,dtype={'a': str, 'b': np.float64, 'c':np.float64}, 但我<

浏览 21提问于2016-07-25得票数 12

1回答

以numpy数组的形式从excel文件导入数据

我有一个包含250个变量(integer和float)的.csv文件，这些变量具有给定的列名。第一列是序列号，最后一列是'label‘我正在使用github中的代码将其导入为numpy数组：train_data = genfromtxt如何将输出转换为正确的numpy数组格式，不包括第一列，并将最后一列存储到不同的'Y‘变量中。我使用的是以下代码： np.reshape

浏览 3提问于2018-03-27得票数 1

1回答

如何解析CSV文件(如用逗号或管道)并将其读入数据帧？

、

我试图循环一个文件夹中的多个CSV文件，并将每个文件解析为一个数据框架，然后获取每个字段的数据类型。在进入循环之前，我尝试解析一个CSV文件，并且遇到了一些问题。这就是我现在的工作。import pandas as pdcsv_file = 'C:\\path\\ARMINDEX.CSV'df

浏览 5提问于2018-11-01得票数 1

回答已采纳

2回答

回顾在if语句中创建的变量

、、、、

我正在遍历目录中的文件。但是我只需要有.csv扩展名的文件。然后，我需要使用这些文件的路径，以便在代码后面使用它们。if file.endswith(ext): datoteka = root + '\\' + subdir + '\\' + file但是

浏览 7提问于2022-07-23得票数 0

回答已采纳

3回答

pd.read_csv优化，减少运行时间

、、、、

我的输入文件是20 is的.txt文件，所以当我测试运行下面的代码时，它会遇到性能问题。pd.read_csv花了3个多小时。需要在阅读阶段进行优化。4 757582821517 001 NaN NaN NaNimport pandas

浏览 40提问于2021-06-09得票数 0

1回答

Pandas在使用read_sql时不使用dtype吗？

、、

我在sql中有一个表，我希望将其读入到pandas数据帧中。我可以读入表，但所有列数据类型都是作为对象读入的。当我将表写入csv，然后使用read_csv重新读回它时，假定数据类型是正确的。显然，这个中间步骤效率很低，我只希望能够直接从sql读取数据，并假定数据类型正确。我在df中有650列，因此显然不可能手动指定数据类型。

浏览 46提问于2019-11-14得票数 0

1回答

减少内存使用后无法使用to_csv导出csv

、、、、

我已经打开了csv文件(600mb)它非常大，所以我从以下几个方面减少了内存使用：它在Jupter Notebook中工作，并显示： optimized_df.info() 现在，我想导出缩减的DataFrame当我将新文件读到Jupyter Notebook时，数据类型与缩减前相同，内存使用量也是如此(1,6 GB+)。我做错了什么？

浏览 1提问于2018-03-16得票数 0

1回答

VS代码补全很糟糕，是我的设置吗？

、、

VS Code中的代码完成和智能感知对我来说绝对是可怕的。在每一种语言中。我有安装和更新的扩展，但它总是绝对的垃圾。import pandas as pddata_all. (press tab)我在python、ruby/rails中遇到过这个问题，几乎我

浏览 19提问于2021-03-13得票数 1

2回答

如何使用pandas将日期作为纯文本处理？

、

我使用pandas读取.csv文件，然后将其另存为.xls文件。代码如下：df = pd.read_csv('filename.csv', encoding='GB18030')df.to_excel('filename.xls') 有一列包含类似'2020/7/12‘的日期，看起来熊猫把它识别为日期并自动输出到'2020-07-12’。这种转换发生在read_csv</

浏览 1提问于2020-07-12得票数 0

1回答

从字符串缓冲区读取pandas.read_csv的代码检查警告

、

我的Python环境使用Pandas 1.4.2。我有以下从字符串缓冲区读取的代码：data: pandas.DataFrame = pandas.read_csv(io.StringIO(response.content.decode("utf-8")), skiprows=2)Expe

浏览 7提问于2022-05-03得票数 2

1回答

达克read_csv在熊猫不成功的地方失败

、、

尝试在熊猫的read_csv文件中使用达斯克的read_csv失败，但有以下错误：https://google.com,"<a href=""link"">使sample参数大到足以在内存中加载整个文件似

浏览 0提问于2017-08-18得票数 10

2回答

date_parser: TypeError: TypeError()接受一个位置参数，但给出了2个位置参数

、、、

索引(将“日期”和“时间”列合并到一个列中)。这是代码的一个片段：from datetime import datetime return datetime.strptime],原来的日期和时间是这样的：25-Apr-17 19},

浏览 0提问于2020-05-27得票数 0

回答已采纳

1回答

熊猫=在excel上正确()

、、

因此，我基本上尝试对列旁边的整个列执行一个=RIGHT()函数。我目前正在引用，但是我得到了一个Can only use .str accessor with string values!错误import pandas as pd df['C

浏览 3提问于2021-11-02得票数 0

回答已采纳

点击加载更多