问题描述
我们在进行数据处理时,有时候会碰到字段中包含逗号(,)的csv文件,例如test.csv文件中数据:
其中,第二个字段"New York, NY"中包含逗号,而csv文件又以逗号作为默认分隔符。那我们如何处理这类数据呢?
使用pandas read_csv函数进行处理数据
面对这种问题,我们无须进行特殊处理,直接使用pandas.read_csv函数进行读取数据即可。
为什么呢?
主要是因为pandas.read_csv函数理解 CSV 文件的基本规则,即逗号分隔值(Comma-Separated Values)格式。即当字段本身包含逗号时,CSV 文件通常会用引号(通常是双引号 ")将这样的字段包围起来,以避免被误认为是分隔符。
即,如果一个csv文件不遵从逗号分隔值格式,那它便不是真正的csv文件格式,用wps或者office也无法正确打开。那样的话,它和 txt 格式数据没有区别。
例如上面的样例数据,"New York, NY" 是一个包含逗号的字段,但由于它被双引号包围,pandas 的 read_csv() 函数能够正确地将其解析为单个单元格,而不是将其拆分为两个独立的单元格。
领取专属 10元无门槛券
私享最新 技术干货