Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何用 Pandas 存取和交换数据?

如何用 Pandas 存取和交换数据?

作者头像
王树义
发布于 2019-06-04 09:03:29
发布于 2019-06-04 09:03:29
2.1K00
代码可运行
举报
文章被收录于专栏:玉树芝兰玉树芝兰
运行总次数:0
代码可运行

王树义

本文为你介绍 Pandas 存取数据的3种主要格式,以及使用中的注意事项。

问题

数据分析的过程里,你已经体会到 Python 生态系统的强大了吧?

数据采集、整理、可视化、统计分析……一直到深度学习,都有相应的 Python 包支持。

但是你会发现,没有任何一个 Python 软件包,是全能的。

这是一种非常好的设计思维——用优秀的工具,做专业的事儿;用许多优秀工具组成的系统,来有条不紊地处理复杂问题

所以,在这个过程中,你大概率会经常遇到数据的交换问题。

有时候,是把分析结果存起来,下次读取回来继续使用。

更重要的时候,是把一个工具的分析结果导出,导入到另一个工具包中。

这些数据存取的功能,几乎分布在每一个 Python 数据科学软件包之内。

但是,其中有一个最重要的枢纽,那就是 Pandas 。

我不止一次跟你提起过,学好 Pandas 的重要性

很多情况下,看似复杂的数据整理与可视化,Pandas 只需要一行语句就能搞定。

回顾我们的教程里,也曾使用过各种不同的格式读取数据到 Pandas 进行处理。

然而,当你需要自己独立面对软件包的格式要求时,也许仅仅是因为不了解如何正确生成或读取某种格式,结果导致出错,甚至会使你丧失探索的信心与兴趣。

这篇教程里,我以咱们介绍过多次的情感分类数据作为例子,用最小化的数据集,详细为你介绍若干种常见的存取数据格式。

有了这些知识与技能储备,你就可以应对大多数同类数据分析问题的场景了。

环境

为了方便你完整重现我教程中的代码,我使用 Google Colab 撰写和运行,并且存储副本到了 Github 里面。

请在我的公众号“玉树芝兰”(nkwangshuyi)后台输入“export”,就可以获得本教程相应的 Github 链接,以及代码运行环境的使用说明了。

数据

为了尽量简化问题,我们这里手动输入两条文本,构建一个超小型的评论情感数据集。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
str1 = "这是个好电影,\n我喜欢!"
str2 = "这部剧的\t第八季\t糟透了!"

(猜猜看,其中 str2 里面的“这部剧”是哪一部?)

你看到了,这里我加了一些特殊符号进去。

其中:

  • \n :换行符。有时候原始评论是分段的,所以出现它很正常;
  • \t :制表符。对应键盘上的 Tab 键,一般在代码里用于缩进。用在评论句子中其实很奇怪。这里只是举个例子,下文你会看到它的特殊性。

我们打印一下两个字符串,看是否正确输入:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
print(str1)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
这是个好电影,
我喜欢!

换行符正确显示了。下面我们看看制表符。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
print(str2)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
这部剧的	第八季	糟透了!

好了,下面我们分别赋予两句话情感标记,然后用 Pandas 构建数据框。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd

我们建立了一个字典(dict),分别将文本和标记列表放到 textlabel 下面。然后,用 Pandas 的默认构建方式,自动将其转化为数据框(Dataframe)。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df = pd.DataFrame({'text': [str1, str2], 'label': [1, 0]})
df

显示效果如下:

好了,数据已经正确存储到 Pandas 里面了。下面我们分别看看几种输出格式如何导出,以及它们的特点和常见问题。

CSV/TSV

我们来看最常见的两种格式,分别是:

  • csv :逗号分隔数据文本文件;
  • tsv :制表符分隔数据文本文件;

先尝试把 Pandas 数据框导出为 csv 文件。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df.to_csv('data.csv', index=None)

注意这里我们使用了一个 index=None 参数。

回顾刚才的输出:

上图中标红色的地方,就是索引(index)。如果我们不加入 index=None 参数说明,那么这些数值型索引也会一起写到 csv 文件里面去。对我们来说,这没有必要,会白白占用存储空间。

将生成的 csv 文件拖入文本编辑器内,效果如下:

你可以清楚地看到,逗号分割了表头和数据。

有意思的是,因为第一句评论里包含了换行符,所以就真的记录到两行上面。而文本的两端,有引号包裹

第二句话,制表符(缩进)也是正确显示了。但是这句话两端,却没有引号

这么乱七八糟的结果,Pandas 还能够正确读回来吗?

我们试试看。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pd.read_csv('data.csv')

一切正常。

看来,在读取 csv 的过程里,Pandas 还是很有适应能力的。

下面我们来看看颇为类似的 tsv 格式。

Pandas 并不提供一个单独的 to_tsv 选项。我们依然需要利用 to_csv 方法。

只不过,这次我们添加一个参数 sep='\t'

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df.to_csv('data.tsv', index=None, sep='\t')

生成的文件名为 data.tsv 。我们还是在编辑器里面打开它看看。

对比一下刚刚的 csv 格式,你发现了什么?

大体上二者差不多。

只是逗号都变成了制表符缩进而已。

但是不知你是否发现,第二句话此时也被引号包裹起来了。

为什么呢?

对,因为这句话里面含有制表符。如果不包裹,读取的时候可就要出问题了。程序就会傻乎乎地把 “第八季” 当成标记,扔掉后面的内容了。

你看现在编辑器的着色,实际上已经错误判断分列了。

我们试着用 Pandas 把它读取回来。

注意,这里我们依然指定了,分割符是 sep='\t'

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pd.read_csv('data.tsv', sep='\t')

没有差别,效果依然很好。

这两种数据导出格式,非常直观简洁,用文本编辑器就可以打开查看。而且导出读取都很方便。

这是不是意味着,我们只要会用这两种格式就可以了呢?

别忙,我们再来看一个使用案例。

在处理中文文本信息时,我们经常需要做的一件事情,就是分词

这里,我们把之前两句话进行分词后,再尝试保存和读取。

为了分词,我们先安装一个jieba分词包。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
!pip install jieba

然后把它读取进来。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import jieba

前面我们给自己挖了个坑——为了说明特殊符号的存储,我们加了换行符和制表符。现在问题来了,分词之后,我们肯定不想要这些符号。

怎么办呢?

我们来编写一个定制化的分词函数就好了。

这个函数里,我们分别清除掉制表符和换行符,然后再用结巴分词切割。分词这里,我们用的是默认参数

因为分词后的结果实际上是个生成器(generator),而我们是需要真正的列表(list)的,所以利用 list 函数强制转换分词结果成为列表。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def cleancut(s):
  s = s.replace('\t', '')
  s = s.replace('\n', '')
  return list(jieba.cut(s))

我们生成一个新的数据框 df_list ,克隆原先的 df

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list = df.copy()

然后,我们把分词的结果,存到新的数据框 df_listtext 列上面。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list.text = df.text.apply(cleancut)

看看分词后的效果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list

怎么证明 text 上存储的确实是个列表呢?

我们来读取一下其中的第一个元素好了。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list.text.iloc[0][0]

结果显示为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
'这'

很好。此时的数据框可以正确存储预处理(分词)的结果。

下面我们还是仿照原先的方式,把这个处理结果数据导出,然后再导入。

先尝试 csv 格式。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list.to_csv('data_list.csv', index=None)

导出过程一切正常。

我们来看看生成的 csv 文件。

在存储的过程中,列表内部,每个元素都用单引号包裹。整体列表的外部,被双引号包裹。

至于分割符嘛,依然是逗号

看着是不是很正常?

我们来尝试把它读取回来。当然我们希望读取回来的格式,跟当时导出的一模一样

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pd.read_csv('data_list.csv')

结果是这样的:

初看起来,很好啊!

但是,我们把它和导出之前的数据框对比一下,你来玩儿一个“大家来找茬”游戏吧。

注意,导出之前,列表当中的每一个元素,都没有引号包裹的。

但是重新读取回来的内容,每一个元素多了个单引号。

这看起来,似乎也不是什么大毛病啊。

然而,我们需要验证一下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pd.read_csv('data_list.csv').text.iloc[0][0]

这次程序给我们返回的第一行文本分割的第一个元素,是这样的:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
'['

不应该是“这”吗?

我们来看看下一个元素是“这”吗?

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pd.read_csv('data_list.csv').text.iloc[0][1]

答案是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
"'"

看到这里,你可能已经恍然大悟。原来导出 csv 的时候,原先的分词列表被当成了字符串;导入进来的时候,干脆就是个字符串了。

可是我们需要的是个列表啊,这个字符串怎么用?

来看看 tsv 格式是不是对我们的问题有帮助。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list.to_csv('data_list.tsv', index=None, sep='\t')

打开导出的 tsv 文件。

列表就是列表,两边并没有用双引号包裹。

这次兴许能成!

我们赶紧读回来看看。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pd.read_csv('data_list.tsv', sep='\t')

这结果,立刻让人心里凉了一半。

因为列表里面每个元素两旁的单引号都在啊。

抱着一丝侥幸的心理,我们尝试一下验证第一个元素。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pd.read_csv('data_list.tsv', sep='\t').text.iloc[0][0]

果不其然,还是中括号

这意味着读回来的,还是一个字符串。

任务失败。

看来,依靠 csv/tsv 格式把列表导出导入,是不合适的。

那我们该怎么办呢?

pickle

好消息是,我们可以用 pickle 。

pickle 是一种二进制格式,在 Python 生态系统中,拥有广泛的支持。

例如 PyTorch 的预训练模型,就可以用它来存储和读取。

在 Pandas 里面使用 pickle,非常简单,和 csv 一样有专门的命令,而且连参数都可以不用修改添加。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list.to_pickle("data.pickle")

读取回来,也很方便。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list_loaded = pd.read_pickle("data.pickle")

我们来看看读取回来的数据是否正确:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list_loaded

这次看着好多了,那些让我们烦恼的引号都不见了。

验证一下第一行列表的第一个元素:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list_loaded.text.iloc[0][0]

结果是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
'这'

很让人欣喜的结果啊!

看来 pickle 格式果然靠谱。

不过,当我们试图在文本编辑器里打开 pickle 格式的时候,会有警告。

如果我们忽略警告,一意孤行。那么确实还是可以打开的。

只不过,你看得懂吗?

反正我是看不懂的。

这就是二进制存储方式的问题——只适合机器来看,人读起来如同天书。

但这其实还不是 pickle 格式最大的问题。

最大的问题,在于不同软件包之间的交互。

我们在做数据分析的时候,难免会调用 Pandas 以外的软件包,继续分析我们用 Pandas 预处理后的文件。

这个时候,就要看对方支持的文件格式有哪些了。

一个最常见的例子,是 PyTorch 的文本工具包 torchtext 。

用它读取数据的时候,格式列表里面不包含 pickle 。

这可糟糕了。我们前面需要 Pandas 来预处理分词,后面又需要使用 Torchtext 来划分训练集和验证集,生成迭代(iteration)数据流,以便输入模型做训练。

可在二者中间,我们却被交换格式问题卡住了。

好在,天无绝人之路。

你看,这里列出的格式列表,除了 csv 和 tsv (已被我们验证过不适合处理分词列表)之外,还有一个 JSON

JSON

JSON 绝对是数据交换界的一等公民

它不仅可以存储结构化数据(也就是我们例子里面的数据框,或者你更常见的 Excel 表格),也可以存储非结构化数据。

如果你跟着我的教程了解过一些 API 的 Python 调用方法,那你对 JSON 格式应该并不陌生。

本例中我们使用的,是一种特殊的 JSON 格式,叫做 JSON Lines。

之所以用它,是因为前面我们介绍的 torchtext 包,要求使用这种格式。

所以,在 Pandas 的 to_json 函数里,我们还要专门加上两个参数:

  • orient="records" :每一行数据单独作为字典形式输出;
  • lines=True :去掉首尾的外部括号,并且每一行数据之间不加逗号。
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list.to_json("data.json", orient="records", lines=True)

输出的结果,是这个样子的。

由于中文采用了 unicode 方式存储,所以此处我们无法直接识别每一个汉字。

但是,存储的格式,以及其他类型的数据记录,还是能看得一清二楚的。

我们来尝试读入。方法与输出类似,也是用同样的参数。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list_loaded_json = pd.read_json("data.json", orient="records", lines=True)

看看读入效果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list_loaded_json

首先,你会发现列的位置发生了调换。好在对于数据框来说,这不是问题,因为列之间的相对位置本来也没有特殊含义。

其次,你能看到,那些引号都没有出现。

为了进一步验证,我们还是调取第一行列表的第一个元素。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df_list_loaded_json.text.iloc[0][0]

显示为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
'这'

太棒了!

这样一来, Pandas 就可以和 torchtext 等软件包之间,建立顺畅而牢固的数据交换通道了。

小结

通过阅读本文,希望你已经掌握了以下知识点:

  • Pandas 数据框常用的数据导出格式;
  • csv/tsv 对于文本列表导出和读取中会遇到的问题;
  • pickle 格式的导出与导入,以及二进制文件难以直接阅读的问题;
  • JSON Lines 格式的输入输出方法及其应用场景;
  • 如何自定义函数,在分词的时候去掉特殊符号。

希望这些知识和技能,可以帮助你解决研究和工作中遇到的实际问题。

深度学习愉快!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 玉树芝兰 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​Pandas库的基础使用系列---数据读取
欢迎各位小伙伴一起继续学习,我们上期和大家简单的介绍了一下JupyterLab的使用,从今天开始我们就要正式开始pandas的学习了。我们尽量不长篇大论,争取每篇文章介绍几个知识点,主要还是需要各位小伙伴一起动手实践一下。
IT蜗壳-Tango
2023/12/10
3642
​Pandas库的基础使用系列---数据读取
数据分析从零开始实战(二)
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。
龙哥
2020/01/16
1.5K0
数据分析从零开始实战(二)
Pandas数据读取:CSV文件
Pandas 是 Python 中一个强大的数据分析库,它提供了大量的工具用于数据操作和分析。其中,read_csv 函数是 Pandas 中最常用的函数之一,用于从 CSV 文件中读取数据。本文将详细介绍 read_csv 的基本用法,常见问题及其解决方案,并通过代码案例进行说明。
Jimaks
2024/12/18
1.1K0
史上最全!用Pandas读取CSV,看这篇就够了
导读:pandas.read_csv接口用于读取CSV格式的数据文件,由于CSV文件使用非常频繁,功能强大,参数众多,因此在这里专门做详细介绍。
CDA数据分析师
2021/08/05
77.7K2
史上最全!用Pandas读取CSV,看这篇就够了
基于pandas、matplotlib、pyecharts的人工智能相关职位招聘市场数据分析
容大教育人工智能班数据分析阶段实战项目:人工智能相关职位数据分析 小组成员:雷坤、韦民童、李波、陶宇 项目周期5天,数据分析为第2天的需求。
潇洒坤
2018/09/10
1.2K0
基于pandas、matplotlib、pyecharts的人工智能相关职位招聘市场数据分析
python pandas教程
#coding=utf-8 import numpy as np import pandas as pd import matplotlib.pyplot as pyplot #s=pd.Series([7,'Heisenberg',3.14,-1789710578,'Happy Eating!']) #print s #Series可以转换字典 d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 110
李智
2018/08/03
1.5K0
20个经典函数细说Pandas中的数据读取与存储
大家好,今天小编来为大家介绍几个Pandas读取数据以及保存数据的方法,毕竟我们很多时候需要读取各种形式的数据,以及将我们需要将所做的统计分析保存成特定的格式。
用户6888863
2021/12/10
3.5K0
20个经典函数细说Pandas中的数据读取与存储
Python库pandas下载、安装、配置、用法、入门教程 —— `read_csv()`用法详解
摘要 Pandas是Python中强大的数据分析与处理库,尤其在处理表格数据时表现出色。其中,read_csv()是Pandas最常用的函数之一,用于读取CSV文件并将其转换为DataFrame。本教程将从零开始,教你如何安装和配置Pandas,并通过详细的代码示例,带你掌握read_csv()的用法。
默 语
2025/01/20
8300
Python库介绍17 数据的保存与读取
在 Pandas 中,数据的保存和读取是非常常见的操作,以文件形式保存的数据可以方便数据的长时间存取和归档
用户11104668
2024/05/17
2760
pandas.read_csv 详细介绍
《Pandas 教程》 修订中,可作为 Pandas 入门进阶课程、Pandas 中文手册、用法大全,配有案例讲解和速查手册。提供建议、纠错、催更等加作者微信: sinbam 和关注公众号「盖若」ID: gairuo。查看更新日志。
Twcat_tree
2022/12/05
5.7K0
13个Pandas实用技巧,有点香 !
归纳整理了一些工作中常用到的pandas使用技巧,方便更高效地实现数据分析。文章很短,不用收藏就能Get~
Python数据科学
2020/06/22
1.1K0
Python Pandas PK esProc SPL,谁才是数据预处理王者?
做数据分析和人工智能运算前常常需要大量的数据准备工作,也就是把各种数据源以及各种规格的数据整理成统一的格式。因为情况非常复杂多样,很难有某种可视化工具来完成此项工作,常常需要编程才能实现。
不吃西红柿
2022/09/26
3.7K0
数据分析利器 pandas 系列教程(三):读写文件三十六计
前面我们学完了 pandas 中最重要的两个数据结构: Series 和 DataFrame,今天来侃侃 pandas 读写文件的那些 tricks,我有十足的信心,大家看了定会有所收获。
月小水长
2020/06/23
1.8K0
pandas的基本用法——导入导出数据
本文主要是关于pandas的数据导入导出功能,非常简单。pandas支持的导入数据格式有csv,excel,sql,json,html,pickle等。导入数据使用的csv文件,student.csv文件内容为:
Tyan
2019/05/25
1.3K0
使用pandas进行文件读写
pandas是数据分析的利器,既然是处理数据,首先要做的当然是从文件中将数据读取进来。pandas支持读取非常多类型的文件,示意如下
生信修炼手册
2020/06/24
2.5K0
使用pandas进行文件读写
手把手教你用Pandas读取所有主流数据存储
导读:从常见的Excel和CSV到JSON及各种数据库,Pandas几乎支持市面上所有的主流数据存储形式。
IT阅读排行榜
2022/04/14
3.1K0
手把手教你用Pandas读取所有主流数据存储
Pandas必会的方法汇总,数据分析必备!
用Python做数据分析光是掌握numpy和matplotlib可不够,Pandas是必须要掌握的一个重点,numpy虽然能够帮我们处理处理数值型数据,但是这还不够,很多时候,我们的数据除了数值之外,还有字符串,还有时间序列等,比如:我们通过爬虫获取到了存储在数据库中的数据。
小F
2021/09/14
6.6K0
pandas读取数据(1)
访问数据是进行各类操作的第一步,本节主要关于pandas进行数据输入与输出,同样的也有其他的库可以实现读取和写入数据。
python数据可视化之路
2023/02/23
2.7K0
pandas读取数据(1)
Python pandas十分钟教程
Pandas是数据处理和数据分析中最流行的Python库。本文将为大家介绍一些有用的Pandas信息,介绍如何使用Pandas的不同函数进行数据探索和操作。 包括如何导入数据集以及浏览,选择,清理,索引,合并和导出数据等常用操作的函数使用,这是一个很好的快速入门指南,如果你已经学习过pandas,那么这将是一个不错的复习。
深度学习与Python
2019/06/18
11.1K0
Python中的数据处理利器
在数据分析、数据可视化领域,Pandas的应用极其广泛;在大规模数据、多种类数据处理上效率非常高。
周辰晨
2022/09/20
2.5K0
Python中的数据处理利器
相关推荐
​Pandas库的基础使用系列---数据读取
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档