Python -在csv中记录包含错误数据的行号[error_bad_lines，warn_bad_lines]

Python中可以使用pandas库来处理csv文件，并且可以通过参数error_bad_lines和warn_bad_lines来记录包含错误数据的行号。

具体步骤如下：

导入pandas库：

import pandas as pd

使用pd.read_csv()函数读取csv文件，并指定参数error_bad_lines=True和warn_bad_lines=True：

data = pd.read_csv('file.csv', error_bad_lines=True, warn_bad_lines=True)

参数error_bad_lines=True表示将包含错误数据的行视为错误，将其记录下来。参数warn_bad_lines=True表示将包含错误数据的行视为警告，也将其记录下来。

查看包含错误数据的行号：

error_lines = data.errors.dropna().index.tolist()

这将返回一个包含错误数据行号的列表。

对于csv文件中的错误数据行号记录，如果需要更详细的处理，可以根据具体业务需求进一步处理错误数据或者进行数据清洗。

同时，推荐腾讯云的产品：腾讯云对象存储（COS）链接地址。腾讯云对象存储（COS）是一种高可用、高可靠、强安全的云端存储服务，适用于存储海量的结构化和非结构化数据，提供了灵活的存储桶、权限管理、数据迁移、数据加密等功能，可满足各类应用场景下的存储需求。

相关·内容

Python读写csv文件专题教程(3)

完整导图前两个部分： Python读写csv文件专题教程(1) Python读写csv文件专题教程(2) ---- 2.5 时间相关 parse_dates 如果导入的某些列为时间类型，但是导入时没有为此参数赋值...这个在文件很大时，内存无法容纳所有数据文件，此时分批读入，依次处理。具体操作演示如下，我们的文件数据域一共有2行。...字符中的小数点 (例如：欧洲数据使用’，‘). 类别上面的thousands参数。...具体查看csv.Dialect 文档 error_bad_lines error_bad_lines : boolean, default True 如果一行包含太多的列，那么默认不会返回DataFrame...C error: Expected 5 fields in line 3, saw 6 在小样本读取时，这个错误很快就能发现，但是在读取大数据文件时，假如读了1个小时，最后几行出现了这类错误，就很闹心！

1.5K3 0

Read_CSV参数详解

分隔符长于一个字符并且不是‘\s+’,将使用python的语法分析器。并且忽略数据中的逗号。...usecols : array-like, default None 返回一个数据子集，该列表中的值必须可以对应到文件中的位置（数字可以对应到指定的列）或者是字符传为文件中的列名。...quoting : int or csv.QUOTE_* instance, default 0 控制csv中的引号常量。...is to convert to a Multi Index on the columns) error_bad_lines : boolean, default True 如果一行包含太多的列，那么默认不会返回...warn_bad_lines : boolean, default True 如果error_bad_lines =False，并且warn_bad_lines =True 那么所有的“bad lines

2.7K6 0

pandas.read_csv 详细介绍

pandas.read_csv 接口用于读取 CSV 格式数据文件，由于它使用非常频繁，功能强大参数众多，所以在这里专门做详细介绍，我们在使用过程中可以查阅。...# 表头为 a b a.1 # False 会报 ValueError 错误数据类型 dtype pandas 的数据类型可参考 dtypes。...# engine=None, {'c', 'python'}, optional pd.read_csv(data, engine='c') 列数据处理 converters 对列的数据进行转换，列名与函数组成的字典...引用的项目可以包含定界符，它将被忽略。 # str (length 1) pd.read_csv(file, quotechar = '"') 引号常量 quoting 控制csv中的引号常量。...# boolean, default True pd.read_csv(StringIO(data), error_bad_lines=False) 坏行警告 warn_bad_lines 如果error_bad_lines

5.3K1 0

python pandas.read_csv参数整理,读取txt,csv文件

6.4K6 0

pandas.read_csv参数详解

3.1K3 0

python pandas.read_csv参数整理,读取txt,csv文件

3.8K2 0

python 导入数据错误：UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb5 in position 0: invalid start

正想导入数据到python作分析找到这个教程 https://www.cnblogs.com/OliverQin/p/8966321.html 我要导入CSV文件，已经放在相同目录之下。...("电信客户流失.csv",encoding="utf-8") /usr/local/lib/python3.5/dist-packages/pandas/io/parsers.py in parser_f...还是一样的报错 #-*- coding : utf-8 -*- # coding: utf-8 import pandas as pd data = pd.read_csv("电信客户流失.csv",encoding...="utf-8") 我尝试这个方法行不通在百度上的方法都解决不了，我用谷歌搜索解决方案我的最终解决方案，来自这里 #-*- coding : utf-8 -*- # coding: utf-8...import pandas as pd data = pd.read_csv("电信客户流失.csv",encoding="unicode_escape") 说明刚才的错误没有了用read_csv

2.3K5 0

Python库的实用技巧专栏

s+", 将使用python的语法分析器, 并且忽略数据中的逗号 delimiter: str 定界符, 备选分隔符, 如果指定该参数, 则sep参数失效 delim_whitespace: bool...dtype: Type name or dict of column -> type 每列数据的数据类型 engine: "c" or "python" 指定分析引擎, C引擎快, 但是Python引擎功能更加完备...解析器下使用 quotechar: str 引号, 用作标识开始和解释的字符, 引号内的分割符将被忽略 quoting: int or csv.QUOTE_* instance 控制csv中的引号常量,...is to convert to a Multi Index on the columns) error_bad_lines: bool 如果一行包含太多的列, 那么默认不会返回DataFrame,...如果设置成False, 那么会将改行剔除(只能在C解析器下使用) warn_bad_lines: bool 如果error_bad_lines=False, 并且warn_bad_lines=True

2.3K3 0

pandas.read_csv() 处理 CSV 文件的 6 个有用参数

pandas.read_csv 有很多有用的参数，你都知道吗？本文将介绍一些 pandas.read_csv()有用的参数，这些参数在我们日常处理CSV文件的时候是非常有用的。...pandas.read_csv() 是最流行的数据分析框架 pandas 中的一个方法。...你可以将此数据复制到文本文件中并将其保存为 dummy.csv 文件。...我们想跳过上面显示的 CSV 文件中包含一些额外信息的行，所以 CSV 文件读入 pandas 时指定 comment = ‘#’： 3、nrows nrows 表示从顶部开始读取的行数，这是在处理...CSV 文件中，如果想删除最后一行，那么可以指定 skipfooter =1：以上就是6个非常简单但是有用的参数，在读取CSV时使用它们可以最大限度地减少数据加载所需的工作量并加快数据分析。

2K1 0

深入理解pandas读取excel,tx

分隔符长于一个字符并且不是‘\s+’,将使用python的语法分析器。并且忽略数据中的逗号。...具体查看csv.Dialect 文档 error_bad_lines 如果一行包含太多的列，那么默认不会返回DataFrame ，如果设置成false，那么会将改行剔除（只能在C解析器下使用） warn_bad_lines...read_csv函数过程中常见的问题有的IDE中利用Pandas的read_csv函数导入数据文件时，若文件路径或文件名包含中文，会报错。...data = pd.read_csv("data.txt",sep="\s+") 读取的文件中如果出现中文编码错误需要设定 encoding 参数为行和列添加索引用参数names添加列索引...squeeze 如果解析的数据只包含一列，则返回一个Series dtype 数据或列的数据类型，参考read_csv即可 engine 如果io不是缓冲区或路径，则必须将其设置为标识io。

6.2K1 0

python-004_pandas.read_csv函数读取文件

参考链接： Python | 使用pandas.read_csv()读取csv 1、pandas简介 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。...你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。通过带有标签的列和索引，Pandas 使我们可以以一种所有人都能理解的方式来处理数据。...从诸如 csv 类型的文件中导入数据。我们可以用它快速地对数据进行复杂的转换和过滤等操作。它和 Numpy、Matplotlib 一起构成了一个 Python 数据探索和分析的强大基础。 ...2、Pandas 中的数据类型 Pandas 基于两种数据类型，series 和 dataframe。 series 是一种一维的数据类型，其中的每个元素都有各自的标签。...csv 文件里导入了数据，并储存在 dataframe 中。

1.7K0 0

深入理解pandas读取excel,txt,csv文件等命令

分隔符长于一个字符并且不是‘\s+’,将使用python的语法分析器。并且忽略数据中的逗号。...具体查看csv.Dialect 文档 error_bad_lines 如果一行包含太多的列，那么默认不会返回DataFrame ，如果设置成false，那么会将改行剔除（只能在C解析器下使用） warn_bad_lines...函数过程中常见的问题有的IDE中利用Pandas的read_csv函数导入数据文件时，若文件路径或文件名包含中文，会报错。...data = pd.read_csv("data.txt",sep="\s+") 读取的文件中如果出现中文编码错误需要设定 encoding 参数为行和列添加索引用参数names添加列索引，用...squeeze 如果解析的数据只包含一列，则返回一个Series dtype 数据或列的数据类型，参考read_csv即可 engine 如果io不是缓冲区或路径，则必须将其设置为标识io。

12.3K4 0

中移集成-首届OneCity编程大赛复盘

本次比赛旨在通过抽取政务表格文件中的关键信息，来实现表格数据自动化分类的目标。优胜者还可获得价值万元的苹果电脑，华为手机等丰厚大奖，欢迎大家踊跃参与！...数据是从政府开放数据平台收集的真实数据，共有9万多个表格文件，包括xls、xlsx、csv三种格式，其中csv文件编码格式统一为utf-8。文件被分为三个部分，训练集、测试集1和测试集2。...基本思路：对表格文本数据进行提取，文本由三部分组成：文件名+表格名字+表头列名文件名：直接用文件名，利用baseline代码可以达到一个不错的基线成绩，0.977+ 表格名字：有的xls内容包含多个表格...'): try: df = pd.read_csv(table_path, error_bad_lines=False, warn_bad_lines=False...'): try: data = pd.read_csv(table_path, error_bad_lines=False, warn_bad_lines=False

6231 0

Python读写csv文件专题教程(1)

1 前言 Python的数据分析包Pandas具备读写csv文件的功能，read_csv 实现读入csv文件，to_csv写入到csv文件。...2 read_csv 读入一个带分隔符的csv文件到DataFrame中，也支持遍历或文件分割为数据片(chunks)....sep: 数据文件的分隔符，默认为逗号。假如sep为None，python引擎会通过内置的 csv.Sniffer工具自动判断分隔符。...注意：如果分割字符长度大于1，且不是 '\s+', 启动python引擎解析。举例： test.csv文件分割符为 '\t', 如果使用sep默认的逗号分隔符，读入后的数据混为一体。...的其他参数还包括如下：通用的解析框架 NA和缺失值的处理时间处理迭代文件压缩相关错误处理指定列的类型指定列为 Categorical 类型基于各种应用场景的参数灵活运用接下来，还会介绍

1.8K2 0

Python数据分析的数据导入和导出

read_csv（）在Python中，导入CSV格式数据通过调用pandas模块的read_csv方法实现。...error_bad_lines（可选，默认为True）：用于指定是否跳过包含错误的行。 warn_bad_lines（可选，默认为True）：用于指定是否显示跳过包含错误的行的警告信息。...例如，kw={'allow_comments': True}表示允许在JSON文件中包含注释。返回值： Python对象：将JSON数据解析后得到的Python对象。...示例导入（爬取）网络数据在Python的数据分析中,除了可以导入文件和数据库中的数据，还有一类非常重要的数据就是网络数据。...在本案例中,通过爬取中商情报网中A股公司营业收入排行榜表格获取相应的金融数据,数据网址为 https://s.askci.com/stock/a/ 二、输出数据 CSV格式数据输出 to_csv to_csv

2651 0

4 个Python数据读取的常见错误

read_csv()是python数据分析包pandas里面使用频次较高的函数之一。它包括的参数差不多20个，可能一开始未必需要完整知道每个参数作用。...不过，随着使用的深入，实际数据环境愈发复杂，处理的数据上亿行后，就会出现这样那样的问题，这样催促我们反过头来再去理解某些参数的作用。今天，总结平时使用read_csv()，经常遇到的几个问题。...read_csv 默认读入文件的编码格式为：utf-8，如果读入文件无法被utf-8编码，就会报上面的错误。可是我们怎么知道读入文件的编码格式呢？...chardet.detect(f.read())['encoding'] 通过charadet包分析出文件的编码格式后，不管使用 python原生的open, read，还是pandas的read_csv...pandas.read_csv(***,error_bad_lines=False) 实际项目，读入的文件数据环境比我们预想的复杂。

1.6K3 0

Python踩坑指南（第一季）

最近在python开发的过程中，发现了一些比较有意思的问题，确实让自己在开发过程中被恶心了一把，所以开了这个连续的更新博文，之后会持续的按第一第二第三这种版本下去，更新一些比较有意思的python代码问题...(keep='first',inplace=True) python 中删除重复项如果在原来数据上删除重复项，就要加入inplace=True 否则只是保存一个副本！！！...---- pd.read_csv(filename,error_bad_lines=False) pandas.errors.ParserError: Error tokenizing data....C error: Expected 1 fields in line 3, saw 2解决办法在使用pandas读取csv文件时报以上错误，解决办法如左加上error_bad_lines=False...pRec.update(f(*args, **kwargs)) return f(*args, **kwargs) return wrapper 收集计算过程中的中间数据

5623 0

用Pandas读取CSV，看这篇就够了

05 列名 names用来指定列的名称，它是一个类似列表的序列，与数据一一对应。如果文件不包含列名，那么应该设置header=None，列名列表中不允许有重复值。...b a.1 # False会报ValueError错误 11 数据类型 dtype可以指定各数据列的数据类型。...# 长度为1的字符串 pd.read_csv(file, quotechar='"') 在csv模块中，数据可能会用引号等字符包裹起来，quoting参数用来控制识别字段的引号模式，它可以是Python...精通Python数据科学及Python Web开发，曾独立开发公司的自动化数据分析平台，参与教育部“1+X”数据分析（Python）职业技能等级标准评审。...中国人工智能学会会员，企业数字化、数据产品和数据分析讲师，在个人网站“盖若”上编写的技术和产品教程广受欢迎。

76.2K8 11

Python报错：pandas.errors.ParserError: Error tokenizing data. C error: Expected 3……

大家好，又见面了，我是你们的朋友全栈君。报错信息用Python做数据处理时，报如下错误： pandas.errors.ParserError: Error tokenizing data....C错误：第28行中需要3个字段，见4 错误产生是因为数据集格式错误。...解决方案我们需要修改一下数据格式或者在读入时做一些设置，以下两种方法可行： 1、修改读入代码在读入代码后面加入如下参数： error_bad_lines=False #加入参数 2、修改文件格式我产生错误的原因是偷懒直接修改的后缀名...，正确做法是将文件打开另存在数据集要求的格式。...例如我需要csv文件，现有是xlsx文件，需要打开另存在csv文件，不能直接修改后缀名。

1.3K3 0

文件读取功能（Pandas读书笔记7）

一天一更有点受不了了~~~~ pandas主要有DataFrame和Series两种数据类型。 DataFrame类似于一张Excel表，Series类似于Excel中的某一列。...绝对路径需要各位亲按照自己的文件路径改一下哈！抓取后在Python中呈现的情况如下： ?...我们使用Type函数看一下df变量的类型，看到读取文件后，在pandas中就是使用DataFrame进行存储的！ ? 敲黑板！！其实文件读取最大的问题是如何解决原始数据错误导致无法正常读取的问题。...df= pd.read_csv(cf,keep_default_na=False, error_bad_lines=False) 其实read_csv函数后面接了很多参数，具体参数见今天的另一个文章。...那我们用之前的代码读取会怎样呢？ ? ? 我们发现数据混杂在了一起，那如何将他们按照竖线分好列呢？增加一个参数即可！ ?

3.9K5 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python -在csv中记录包含错误数据的行号[error_bad_lines，warn_bad_lines]

相关·内容

Python读写csv文件专题教程(3)

Read_CSV参数详解

pandas.read_csv 详细介绍

python pandas.read_csv参数整理,读取txt,csv文件

pandas.read_csv参数详解

python pandas.read_csv参数整理,读取txt,csv文件

python 导入数据错误：UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb5 in position 0: invalid start

Python库的实用技巧专栏

pandas.read_csv() 处理 CSV 文件的 6 个有用参数

深入理解pandas读取excel,tx

python-004_pandas.read_csv函数读取文件

深入理解pandas读取excel,txt,csv文件等命令

中移集成-首届OneCity编程大赛复盘

Python读写csv文件专题教程(1)

Python数据分析的数据导入和导出

4 个Python数据读取的常见错误

Python踩坑指南（第一季）

用Pandas读取CSV，看这篇就够了

Python报错：pandas.errors.ParserError: Error tokenizing data. C error: Expected 3……

文件读取功能（Pandas读书笔记7）

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐