首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >​Pandas库的基础使用系列---数据读取

​Pandas库的基础使用系列---数据读取

原创
作者头像
IT蜗壳-Tango
发布于 2023-12-10 15:59:15
发布于 2023-12-10 15:59:15
39120
代码可运行
举报
文章被收录于专栏:Pandas基础实践Pandas基础实践
运行总次数:0
代码可运行

前言

欢迎各位小伙伴一起继续学习,我们上期和大家简单的介绍了一下JupyterLab的使用,从今天开始我们就要正式开始pandas的学习了。我们尽量不长篇大论,争取每篇文章介绍几个知识点,主要还是需要各位小伙伴一起动手实践一下。

为了和大家能使用同样的数据进行学习,建议大家可以从国家统计局的网站上进行下载。

网站:国家数据 (stats.gov.cn)

image-20231210232723799
image-20231210232723799

如何加载数据

当我们有了数据后,如何读取它里面的内容呢

我们在根目录下创建一个data的文件夹,用来保存我们的数据,本次演示使用的数据集是行政区划

image-20231210233216451
image-20231210233216451

我们可以点击右上角的下载图标进行下载

image-20231210233308986
image-20231210233308986

为了演示,我们下载Excel和CSV这两种格式的数据,并保存在data目录下。

image-20231210233454422
image-20231210233454422

我们可以将自己下载好的文件直接拖拽过来即可。

我们新建一个day01的目录用来保存我们的notebook

image-20231210233614652
image-20231210233614652

选择默认的即可

我们为了能使用pandas,我们需要通过pip 进行安装,在notebook中安装,还是比较方便的,只需输入以下内容

代码语言:shell
AI代码解释
复制
!pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple/ 

这里和我们平时安装基本一样,唯一的却别就是在命令行前面多了一个感叹号

后面我们执行其他命令时,这个感叹号都是必须的。

image-20231210234030658
image-20231210234030658

导入pandas

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
image-20231210234214671
image-20231210234214671

运行结束后,单元格的前面会出现一个编号,你的和我的不一样也没关系。

加载数据

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
df = pd.read_csv("../data/年度数据.csv", encoding="utf-8", sep="\t")

这里我们读取的是CSV文件,路径使用的是相对路径,由于这个csv并不是用逗号分隔的,而是用tab(制表符)分隔的,因此我们使用sep="\t"这个参数。

image-20231210234939787
image-20231210234939787

数据加载好后,我们再看看具体都写了些什么,产看很简单,只需要在单元格中输入我们之前定义好的变量df然后shift+回车即可。

image-20231210235110158
image-20231210235110158

我们可以看到数据被很好的展示出来了。

我再试试读取excel格式的那个数据

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
df2 = pd.read_excel("../data/年度数据.xls")

但是当你运行时,会发现报错,主要是因为,我们读取的excel格式比较老了,需要安装另一个库对他进行解析

image-20231210235411063
image-20231210235411063
代码语言:shell
AI代码解释
复制
!pip install xlrd  -i https://pypi.tuna.tsinghua.edu.cn/simple/ 
image-20231210235518038
image-20231210235518038

再次运行看看效果

image-20231210235553813
image-20231210235553813

很好,数据也被正常的显示出来了。

结尾

好了今天的内容就是这些,我们介绍了如何安装pandas这个库,以及如何读取csv和xls文件。

赶快动手实践一下吧,我是Tango,一个热爱分享技术的程序猿,我们下期见。


我正在参与2023腾讯技术创作特训营第四期有奖征文,快来和我瓜分大奖!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
2 条评论
热度
最新
在读取Excel文件时,为什么需要安装xlrd库,而不是Pandas的内置功能?
在读取Excel文件时,为什么需要安装xlrd库,而不是Pandas的内置功能?
111举报
主要是因为我们下载的数据格式是xls,而不是xlsx,比较新的pandas版本都不能直接加载xls格式了。
主要是因为我们下载的数据格式是xls,而不是xlsx,比较新的pandas版本都不能直接加载xls格式了。
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
【说站】python中pandas的知识点整理
1、python+data+analysis的组合缩写,是python中以numpy和matplotlib为基础的第三方数据分析库
很酷的站长
2022/11/23
2550
【说站】python中pandas的知识点整理
如何使用 Python 统计分析 access 日志?
性能场景中的业务模型建立是性能测试工作中非常重要的一部分。而在我们真实的项目中,业务模型跟线上的业务模型不一样的情况实在是太多了。原因可能多种多样,这些原因大大降低了性能测试的价值。
高楼Zee
2021/03/16
9710
数据概览神器—Pandas-profiling
Python中有很多常用的数据分析函数,可以帮助我们对样本有一个初步的认识,比如describe()函数,可以很方便地生成每个变量的最大值、最小值、分位数等。
阿黎逸阳
2020/09/14
3.5K0
数据概览神器—Pandas-profiling
Pandas库的基础使用系列---DataFrame练习
我们前几篇文章和大家介绍了如何读取Excel,以及如何获取行数据,列数据,以及具体单元格数据。像我们目前只读取了一个Excel表中的一个sheet的数据,这个sheet的数据通常我们在pandas中称其为DataFrame,它可以包含一组有序的列(Series), 而每个Series可以有不同的数据类型,这个等我们后面再详细说,今天和一起针对DataFrame一起做几个小练习。DataFrame后面我们简称为df。
IT蜗壳-Tango
2023/12/13
5190
Pandas库的基础使用系列---DataFrame练习
用Python制作销售数据可视化看板,展示分析一步到位!
主要使用Python的Streamlit库、Plotly库、Pandas库进行搭建。
小F
2021/11/23
2.4K0
Python数据分析库之pandas,你该这么学!No.1
你只要这样,这样,然后在这样,中间出现问题,百度一下,这样,这样,就好了... ...
梦想橡皮擦
2019/05/16
6020
Python数据分析库之pandas,你该这么学!No.1
『开发技巧』解决Python使用pandas读取xlsx文件报错“ImportError: Missing optional dependency ‘xlrd‘”的问题
笔者在使用Mac进行Python开发时使用pandas读取xlsx文件遇到这个错误:
小宋是呢
2021/09/10
6.2K0
Python~Pandas 小白避坑之常用笔记
1、Pandas是python的一个数据分析包,为解决数据分析任务而创建的; 2、Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具; 3、pandas提供了大量能使我们快速便捷地处理数据的函数和方法;它是使Python成为强大而高效的数据分析环境的重要因素之一;
EXI-小洲
2022/12/13
3.5K0
Python~Pandas 小白避坑之常用笔记
这个可视化分析库,让你轻松玩转数据科学!
A Python API for Intelligent Visual Discovery.
小F
2020/12/16
6210
这个可视化分析库,让你轻松玩转数据科学!
No 1. 什么是 Pandas & Pandas 能干啥?
十年前,一个还在做量化交易研究的美国人 Wes McKinney 开始写下了第一行 pandas 代码。慢慢地,pandas 成为了众多 python 程序员做数据分析的首选工具:它足够快,支持读写各种常用数据格式,语法灵活,又有丰富的生态。
王图思睿
2021/06/16
9170
Pandas库的基础使用系列---数据查看
我们上篇文章中介绍了,如何加载excel和csv数据,其实除了这两种数据外,还可以从网站或者数据库中读取数据,这部分我们放到后面再和大家介绍。
IT蜗壳-Tango
2023/12/11
4770
Pandas库的基础使用系列---数据查看
Python处理Excel数据-pandas篇
在计算机编程中,pandas是Python编程语言的用于数据操纵和分析的软件库。特别是,它提供操纵数值表格和时间序列的数据结构和运算操作。它的名字衍生自术语“面板数据”(panel data),这是计量经济学的数据集术语,它们包括了对同一个体的在多个时期上的观测。它的名字是短语“Python data analysis”自身的文字游戏。
全栈程序员站长
2022/11/17
4.4K0
Python处理Excel数据-pandas篇
官方推荐:6种Pandas读取Excel的方法,正确答案都写在源代码里了~太方便了
不仅是我们Python开发,很多其它行业的朋友也经常使用Python中的Pandas这个库进行Excel的数据处理。
程序员晚枫
2022/12/06
4.7K0
官方推荐:6种Pandas读取Excel的方法,正确答案都写在源代码里了~太方便了
情人节,我用 Python 给女朋友做了个选礼物看板!
一年 N 度的情人节又又又到了!各位程序猿们给女朋友准备礼物了吗?刚铁直男都存在一个困惑的问题:送女朋友什么礼物好?今天特意爬取了某东的数据,来分析下大家情人节都送什么给女朋友。
杰哥的IT之旅
2022/03/31
7580
情人节,我用 Python 给女朋友做了个选礼物看板!
python使用小技巧汇总
Python的火热,在各行各业都有所展现,而对于Python的使用有些知识可能用过一次就不用了,下面来介绍下经常使用的小技巧。
希里安
2023/10/30
2480
python使用小技巧汇总
明码标价之探索新流程(以MSIpred为例)
用于整合所有样本的体细胞突变注释结果,由\t分隔的许多列构成,开头的#为注释行,完整的MAF文件有100多列,官网有关于它的详细介绍:
生信技能树
2021/03/08
1.3K0
明码标价之探索新流程(以MSIpred为例)
抽转腾挪:python玩转csv数据
用python处理结构化的CSV数据,我们自然而然会想到结构化查询语句(SQL),如果在python用sql语法来处理数据,肯定很丝滑。
herain
2023/09/01
2490
抽转腾挪:python玩转csv数据
Pandas之EXCEL数据读取/保存/文件分割/文件合并
excel的写入函数为pd.DataFrame.to_excel();必须是DataFrame写入excel, 即Write DataFrame to an excel sheet。
周小董
2019/03/25
2.7K0
Pandas之EXCEL数据读取/保存/文件分割/文件合并
【快速解决】vscode安装Keras,tensorflow;解决from tensorflow.keras.models import Sequential环境配置不上怎么办?
命运之光
2024/03/20
2.7K0
【快速解决】vscode安装Keras,tensorflow;解决from tensorflow.keras.models import Sequential环境配置不上怎么办?
python pyecharts地理数据可视化 绘制地理图表
Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。
叶庭云
2020/09/17
10.6K1
推荐阅读
相关推荐
【说站】python中pandas的知识点整理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档