文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在加载数据集时解析Pandas 'read_csv‘中的“read_csv”

问如何在加载数据集时解析Pandas 'read_csv‘中的“read_csv”
EN

Stack Overflow用户

提问于 2020-04-11 12:35:37

回答 2查看 698关注 0票数 0

我正在使用CSV文件中的一个销售数据集。当我尝试用熊猫read_csv方法加载这个数据集时，我得到了一个错误UnicodeDecodeError: 'ascii' codec can't decode byte 0xae in position 16: ordinal not in range(128)，我不知道如何解决这个问题。我搜索了它，得到了，仍然无法解决我的问题。我尝试了以下方法

import pandas as pd

sales=pd.read_csv("Superstore-Sales.csv")
sales.head(5)

这里是全错误

---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_tokens()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_with_dtype()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._string_convert()

pandas/_libs/parsers.pyx in pandas._libs.parsers._string_box_utf8()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xae in position 16: invalid start byte

During handling of the above exception, another exception occurred:

UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-50-c100e90b0440> in <module>
      1 import pandas as pd
      2 
----> 3 sales=pd.read_csv("Superstore-Sales.csv")
      4 sales.head(5)

D:\Anacoda\lib\site-packages\pandas\io\parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, dialect, tupleize_cols, error_bad_lines, warn_bad_lines, delim_whitespace, low_memory, memory_map, float_precision)
    700                     skip_blank_lines=skip_blank_lines)
    701 
--> 702         return _read(filepath_or_buffer, kwds)
    703 
    704     parser_f.__name__ = name

D:\Anacoda\lib\site-packages\pandas\io\parsers.py in _read(filepath_or_buffer, kwds)
    433 
    434     try:
--> 435         data = parser.read(nrows)
    436     finally:
    437         parser.close()

D:\Anacoda\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
   1137     def read(self, nrows=None):
   1138         nrows = _validate_integer('nrows', nrows)
-> 1139         ret = self._engine.read(nrows)
   1140 
   1141         # May alter columns / col_dict

D:\Anacoda\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
   1993     def read(self, nrows=None):
   1994         try:
-> 1995             data = self._reader.read(nrows)
   1996         except StopIteration:
   1997             if self._first_chunk:

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader.read()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_low_memory()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_rows()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_column_data()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_tokens()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_with_dtype()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._string_convert()

pandas/_libs/parsers.pyx in pandas._libs.parsers._string_box_utf8()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xae in position 16: invalid start byte

python-3.x

pandas

csv

python

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-04-11 12:40:13

看看sales=pd.read_csv("Superstore-Sales.csv", encoding='latin1')能不能帮上忙。

票数 3

Stack Overflow用户

发布于 2020-04-18 03:43:13

你可以试试这个：

address = (r"C:\--------------------/Superstore-Sales.csv")
sales = pd.read_csv(address, encoding='latin1') 
sales.head()

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61163367

复制

Pandas read_csv 使用速查表

csv pandas

2021年第一篇技术文章，使用xmind构建了一个速查表，关于Pandas read_csv方法，接下来我会陆续整理一系列这种格式的速查表，希望能为你提供便利。

double

2021/01/06

5190

Read_CSV参数详解

其他

pandas.read_csv参数详解 pandas.read_csv参数整理读取CSV（逗号分割）文件到DataFrame 也支持文件的部分导入和选择迭代更多帮助参见：http://pandas.pydata.org/pandas-docs/stable/io.html 参数： filepath_or_buffer : str，pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (

用户1332619

2018/04/17

2.7K0

pandas read_csv、read_excel 填充合并的单元格

pandas 表格数据

在使用 pandas 处理表格数据的时候，有时候表格里有很多合并的单元格，不想手动去取消合并再填充数据，应该怎么办呢？主要是使用：

卓越笔记

2023/02/18

1.5K0

在Python中如何差分时间序列数据集

python

差分是一个广泛用于时间序列的数据变换。在本教程中，你将发现如何使用Python将差分操作应用于时间序列数据。完成本教程后，你将学到：关于差分运算，包括延迟差分的配置和差分序列。如何开发手动实现的

AiTechYun

2018/03/02

5.7K0

Keras中的多变量时间序列预测-LSTMs

机器学习神经网络深度学习人工智能

神经网络诸如长短期记忆（LSTM）递归神经网络，几乎可以无缝地对多变量输入问题进行建模。

朱卫军 AI Python

2022/04/02

3.2K0

Python3 pandas read_csv 读取txt文件报错：IOError: Initializing from file failed

其他

错误代码： data=pd.read_csv(‘C:\Users\lenovo\Desktop\停用词文件\后缀词处理260\handle_data_01.txt’,sep=’\n’) pri

学到老

2018/03/16

1.8K0

Python3 pandas read_csv 读取txt文件报错：IOError: Initializing from file failed

深入理解pandas读取excel,tx

html json http https

文档操作属于pandas里面的Input/Output也就是IO操作，基本的API都在上述网址，接下来本文核心带你理解部分常用的命令

py3study

2020/02/10

6.2K0

波士顿房价预测案例---多元线性回归【机器学习】

机器学习线性回归测试模型数据

我们采用波士顿房价预测数据集进行回归任务分析。数据集分为训练集和测试集，训练集可用于训练回归模型，测试集需要进行预测。

来杯Sherry

2023/05/25

6160

使用SQLAlchemy将Pandas DataFrames导出到SQLite

python sqlite android

在进行探索性数据分析时（例如，在使用pandas检查COVID-19数据时），通常会将CSV，XML或JSON等文件加载到 pandas DataFrame中。然后，您可能需要对DataFrame中的数据进行一些处理，并希望将其存储在关系数据库等更持久的位置。

py3study

2020/12/17

4.9K0

独家 | 手把手教你用Python的Prophet库进行时间序列预测

https 网络安全 github git 开源

本文为大家介绍了如何在Python中使用由Facebook开发的Prophet库进行自动化的时间序列预测，以及如何评估一个由Prophet库所搭建的时间序列预测模型的性能。

数据派THU

2020/10/26

11.6K0

深入理解pandas读取excel,txt,csv文件等命令

python http https json

文档操作属于pandas里面的Input/Output也就是IO操作，基本的API都在上述网址，接下来本文核心带你理解部分常用的命令

梦想橡皮擦

2019/03/15

12.3K0

Python之pandas数据加载、存储

其他

Python之pandas数据加载、存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 利用Web API操作网络资源 1. 读

王小雷

2018/01/02

1.9K0

如何使用Python基线预测进行时间序列预测

python

建立基线对于任何时间序列预测问题都是至关重要的。

花落花飞去

2018/02/07

8.4K0

教你预测北京雾霾，基于keras LSTMs的多变量时间序列预测

机器学习神经网络深度学习人工智能

神经网络诸如长短期记忆（LSTM）递归神经网络，可以很轻松地对多变量输入问题进行建模。

朱卫军 AI Python

2022/04/03

1.2K0

用Python的长短期记忆神经网络进行时间序列预测

其他

长短期记忆递归神经网络具有学习长的观察序列的潜力。

QiqiHe

2018/02/08

9.6K2

预测随机机器学习算法实验的重复次数

机器学习编程算法

许多随机机器学习算法的一个问题是同一数据上相同算法的不同运行会返回不同的结果。这意味着，当进行实验来配置随机算法或比较算法时，必须收集多个结果，并使用平均表现来总结模型的技能。这就提出了一个问题，即一个实验的重复次数是否足以充分描述一个给定问题的随机机器学习算法的技巧。通常建议使用30个或更多个重复，甚至100个。一些从业者使用数千个重复，似乎超出了收益递减的想法。在本教程中，您将探索统计方法，您可以使用它们来估计正确的重复次数，以有效地表征随机机器学习算法的性能。本教程假定您有一个工作

AiTechYun

2018/03/02

1.9K0

pandas read_csv、read_excel 以文本形式读取零开头的纯数字字符

json 编码高德地图

在转换高德地图城市编码的过程中，有很多城市编码开头是 0，当我转成 json 的时候，出来的结果是直接吧数字前面的 0 去掉了，不符合预期。所以此时需要对列转类型。

卓越笔记

2023/02/18

1.8K0

pandas read_csv、read_excel 以文本形式读取零开头的纯数字字符

机器学习中不平衡数据集分类模型示例：乳腺钼靶微钙化摄影数据集

编程算法分类算法机器学习神经网络深度学习

一个典型的不平衡分类数据集是乳腺摄影数据集，这个数据集用于从放射扫描中检测乳腺癌（特别是在乳腺摄影中出现明亮的微钙化簇）。研究人员通过扫描图像，对目标进行分割，然后用计算机视觉算法描述分割对象，从而获得了这一数据集。

deephub

2020/05/09

1.6K0

点击加载更多

相似问题

使用pandas read_csv时未加载值

Jupiter Notebook Pandas read_csv解析错误

132

Python pandas read_csv -在数据帧中加载tgz压缩的数据集

pandas read_csv解析外来日期

326

pandas read_csv中缺少数据

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问如何在加载数据集时解析Pandas 'read_csv‘中的“read_csv”
EN

回答 2

Stack Overflow用户

Stack Overflow用户

使用pandas read_csv时未加载值

Jupiter Notebook Pandas read_csv解析错误

Python pandas read_csv -在数据帧中加载tgz压缩的数据集

pandas read_csv解析外来日期

pandas read_csv中缺少数据

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在加载数据集时解析Pandas 'read_csv‘中的“read_csv”EN

回答 2

Stack Overflow用户

Stack Overflow用户

使用pandas read_csv时未加载值

Jupiter Notebook Pandas read_csv解析错误

Python pandas read_csv -在数据帧中加载tgz压缩的数据集

pandas read_csv解析外来日期

pandas read_csv中缺少数据

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在加载数据集时解析Pandas 'read_csv‘中的“read_csv”
EN