Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何在加载数据集时解析Pandas 'read_csv‘中的“read_csv”

如何在加载数据集时解析Pandas 'read_csv‘中的“read_csv”
EN

Stack Overflow用户
提问于 2020-04-11 12:35:37
回答 2查看 698关注 0票数 0

我正在使用CSV文件中的一个销售数据集。当我尝试用熊猫read_csv方法加载这个数据集时,我得到了一个错误UnicodeDecodeError: 'ascii' codec can't decode byte 0xae in position 16: ordinal not in range(128),我不知道如何解决这个问题。我搜索了它,得到了,仍然无法解决我的问题。我尝试了以下方法

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd

sales=pd.read_csv("Superstore-Sales.csv")
sales.head(5)

这里是全错误

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_tokens()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_with_dtype()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._string_convert()

pandas/_libs/parsers.pyx in pandas._libs.parsers._string_box_utf8()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xae in position 16: invalid start byte

During handling of the above exception, another exception occurred:

UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-50-c100e90b0440> in <module>
      1 import pandas as pd
      2 
----> 3 sales=pd.read_csv("Superstore-Sales.csv")
      4 sales.head(5)

D:\Anacoda\lib\site-packages\pandas\io\parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, dialect, tupleize_cols, error_bad_lines, warn_bad_lines, delim_whitespace, low_memory, memory_map, float_precision)
    700                     skip_blank_lines=skip_blank_lines)
    701 
--> 702         return _read(filepath_or_buffer, kwds)
    703 
    704     parser_f.__name__ = name

D:\Anacoda\lib\site-packages\pandas\io\parsers.py in _read(filepath_or_buffer, kwds)
    433 
    434     try:
--> 435         data = parser.read(nrows)
    436     finally:
    437         parser.close()

D:\Anacoda\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
   1137     def read(self, nrows=None):
   1138         nrows = _validate_integer('nrows', nrows)
-> 1139         ret = self._engine.read(nrows)
   1140 
   1141         # May alter columns / col_dict

D:\Anacoda\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
   1993     def read(self, nrows=None):
   1994         try:
-> 1995             data = self._reader.read(nrows)
   1996         except StopIteration:
   1997             if self._first_chunk:

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader.read()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_low_memory()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_rows()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_column_data()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_tokens()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._convert_with_dtype()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._string_convert()

pandas/_libs/parsers.pyx in pandas._libs.parsers._string_box_utf8()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xae in position 16: invalid start byte
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-04-11 12:40:13

看看sales=pd.read_csv("Superstore-Sales.csv", encoding='latin1')能不能帮上忙。

票数 3
EN

Stack Overflow用户

发布于 2020-04-18 03:43:13

你可以试试这个:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
address = (r"C:\--------------------/Superstore-Sales.csv")
sales = pd.read_csv(address, encoding='latin1') 
sales.head()
票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61163367

复制
相关文章
Pandas read_csv 使用速查表
2021年第一篇技术文章,使用xmind构建了一个速查表,关于Pandas read_csv方法,接下来我会陆续整理一系列这种格式的速查表,希望能为你提供便利。
double
2021/01/06
5190
Read_CSV参数详解
pandas.read_csv参数详解 pandas.read_csv参数整理 读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代 更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html 参数: filepath_or_buffer : str,pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (
用户1332619
2018/04/17
2.7K0
pandas read_csv、read_excel 填充合并的单元格
在使用 pandas 处理表格数据的时候,有时候表格里有很多合并的单元格,不想手动去取消合并再填充数据,应该怎么办呢?主要是使用:
卓越笔记
2023/02/18
1.5K0
pandas read_csv、read_excel 填充合并的单元格
在Python中如何差分时间序列数据集
差分是一个广泛用于时间序列的数据变换。在本教程中,你将发现如何使用Python将差分操作应用于时间序列数据。 完成本教程后,你将学到: 关于差分运算,包括延迟差分的配置和差分序列。 如何开发手动实现的
AiTechYun
2018/03/02
5.7K0
在Python中如何差分时间序列数据集
Keras中的多变量时间序列预测-LSTMs
神经网络诸如长短期记忆(LSTM)递归神经网络,几乎可以无缝地对多变量输入问题进行建模。
朱卫军 AI Python
2022/04/02
3.2K0
Keras中的多变量时间序列预测-LSTMs
Python3 pandas read_csv 读取txt文件报错:IOError: Initializing from file failed
错误代码: data=pd.read_csv(‘C:\Users\lenovo\Desktop\停用词文件\后缀词处理260\handle_data_01.txt’,sep=’\n’) pri
学到老
2018/03/16
1.8K0
Python3 pandas read_csv 读取txt文件报错:IOError: Initializing from file failed
深入理解pandas读取excel,tx
文档操作属于pandas里面的Input/Output也就是IO操作,基本的API都在上述网址,接下来本文核心带你理解部分常用的命令
py3study
2020/02/10
6.2K0
波士顿房价预测案例---多元线性回归【机器学习】
我们采用波士顿房价预测数据集进行回归任务分析。数据集分为训练集和测试集,训练集可用于训练回归模型,测试集需要进行预测。
来杯Sherry
2023/05/25
6160
使用SQLAlchemy将Pandas DataFrames导出到SQLite
在进行探索性数据分析时 (例如,在使用pandas检查COVID-19数据时),通常会将CSV,XML或JSON等文件加载到 pandas DataFrame中。然后,您可能需要对DataFrame中的数据进行一些处理,并希望将其存储在关系数据库等更持久的位置。
py3study
2020/12/17
4.9K0
使用SQLAlchemy将Pandas DataFrames导出到SQLite
独家 | 手把手教你用Python的Prophet库进行时间序列预测
本文为大家介绍了如何在Python中使用由Facebook开发的Prophet库进行自动化的时间序列预测,以及如何评估一个由Prophet库所搭建的时间序列预测模型的性能。
数据派THU
2020/10/26
11.6K0
独家 | 手把手教你用Python的Prophet库进行时间序列预测
深入理解pandas读取excel,txt,csv文件等命令
文档操作属于pandas里面的Input/Output也就是IO操作,基本的API都在上述网址,接下来本文核心带你理解部分常用的命令
梦想橡皮擦
2019/03/15
12.3K0
深入理解pandas读取excel,txt,csv文件等命令
Python之pandas数据加载、存储
Python之pandas数据加载、存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 利用Web API操作网络资源 1. 读
王小雷
2018/01/02
1.9K0
如何使用Python基线预测进行时间序列预测
建立基线对于任何时间序列预测问题都是至关重要的。
花落花飞去
2018/02/07
8.4K0
教你预测北京雾霾,基于keras LSTMs的多变量时间序列预测
神经网络诸如长短期记忆(LSTM)递归神经网络,可以很轻松地对多变量输入问题进行建模。
朱卫军 AI Python
2022/04/03
1.2K0
教你预测北京雾霾,基于keras LSTMs的多变量时间序列预测
用Python的长短期记忆神经网络进行时间序列预测
长短期记忆递归神经网络具有学习长的观察序列的潜力。
QiqiHe
2018/02/08
9.6K2
用Python的长短期记忆神经网络进行时间序列预测
预测随机机器学习算法实验的重复次数
许多随机机器学习算法的一个问题是同一数据上相同算法的不同运行会返回不同的结果。 这意味着,当进行实验来配置随机算法或比较算法时,必须收集多个结果,并使用平均表现来总结模型的技能。 这就提出了一个问题,即一个实验的重复次数是否足以充分描述一个给定问题的随机机器学习算法的技巧。 通常建议使用30个或更多个重复,甚至100个。一些从业者使用数千个重复,似乎超出了收益递减的想法。 在本教程中,您将探索统计方法,您可以使用它们来估计正确的重复次数,以有效地表征随机机器学习算法的性能。 本教程假定您有一个工作
AiTechYun
2018/03/02
1.9K0
预测随机机器学习算法实验的重复次数
pandas read_csv、read_excel 以文本形式读取零开头的纯数字字符
在转换高德地图城市编码的过程中,有很多城市编码开头是 0,当我转成 json 的时候,出来的结果是直接吧 数字前面的 0 去掉了,不符合预期。所以此时需要对列转类型。
卓越笔记
2023/02/18
1.8K0
pandas read_csv、read_excel 以文本形式读取零开头的纯数字字符
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集
一个典型的不平衡分类数据集是乳腺摄影数据集,这个数据集用于从放射扫描中检测乳腺癌(特别是在乳腺摄影中出现明亮的微钙化簇)。研究人员通过扫描图像,对目标进行分割,然后用计算机视觉算法描述分割对象,从而获得了这一数据集。
deephub
2020/05/09
1.6K0
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集
点击加载更多

相似问题

使用pandas read_csv时未加载值

12

Jupiter Notebook Pandas read_csv解析错误

132

Python pandas read_csv -在数据帧中加载tgz压缩的数据集

22

pandas read_csv解析外来日期

326

pandas read_csv中缺少数据

22
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文