python中能操作Excel的库主要有以下9种:
本文主要针对pandas读取 写入 修改 操作Excel进行详细介绍
Pandas是一个用于数据操作和数据分析的Python库。它提供了高效的数据结构,使得处理数据变得更加简单和快捷。Pandas的核心数据结构包括两种类型:Series和DataFrame。Series是一维的数据结构,类似于数组,可以容纳任何类型的数据。DataFrame是二维的数据结构,可以认为是一个表格,其中每列可以是不同类型的数据。Pandas还提供了许多数据操作和数据分析的方法,例如数据清洗、数据筛选、数据变换、数据分组等等。Pandas的优点包括:易于操作、高效处理大数据、内置可视化工具、灵活的数据结构、支持多种数据格式等等。
官方网站:https://pandas.pydata.org/
官方文档:https://pandas.pydata.org/pandas-docs/stable/
Pandas的使用可以分为以下几个方面:
创建Series和DataFrame的方式如下:
import pandas as pd
# 创建Series
s = pd.Series([1, 2, 3, 4])
print(s)
# 创建DataFrame
data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'age': [28, 34, 29, 42],
'city': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen']}
df = pd.DataFrame(data)
print(df)
读取和写入数据的方式有很多种,比较常用的是读写CSV和Excel文件:
import pandas as pd
# 读取CSV文件
df = pd.read_csv('data.csv')
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 写入CSV文件
df.to_csv('data.csv', index=False)
# 写入Excel文件
df.to_excel('data.xlsx', index=False)
Pandas提供了一系列数据清洗和处理的方法:
import pandas as pd
# 删除缺失值
df.dropna(inplace=True)
# 删除重复数据
df.drop_duplicates(inplace=True)
# 替换数据
df.replace('old_value', 'new_value', inplace=True)
# 排序
df.sort_values('column_name', inplace=True)
# 筛选数据
df[df['column_name'] > 10]
# 分组汇总数据
df.groupby('column_name').sum()
# 合并数据
pd.merge(df1, df2, on='column_name')
Pandas内置了一些数据可视化工具,可以方便地绘制图表:
import pandas as pd
import matplotlib.pyplot as plt
# 绘制直方图
df['column_name'].hist()
# 绘制饼图
df.groupby('category')['value'].sum().plot(kind='pie')
# 绘制散点图
plt.scatter(df['column1'], df['column2'])
总的来说,Pandas提供了很多方便的数据操作和分析的功能,可以帮助我们更快地处理和分析数据。
import pandas as pd
from pandas import DataFrame
# pandas读写Excel
def fun3_8_2():
data = pd.read_excel('3_8 pandas 修改操作练习.xlsx', sheet_name='Sheet1')
print(data)
# 增加行数据,在第5行新增
data.loc[4] = ['4', 'john', 'pandas']
# 增加列数据,给定默认值None
data['new_col'] = None
# 保存数据
DataFrame(data).to_excel('new.xlsx', sheet_name='Sheet1', index=False, header=True)
if __name__ == '__main__':
fun3_8_2()