Pandas 是一个强大的 Python 数据分析库,提供了 DataFrame 和 Series 等数据结构,用于处理和分析结构化数据。DataFrame 是一个二维表格型数据结构,类似于 Excel 表格或 SQL 表。
import pandas as pd
# 从 CSV 文件读取数据
df = pd.read_csv('data.csv')
# 查看前几行数据
print(df.head())
# 查看数据的基本信息
print(df.info())
# 查看数据的统计摘要
print(df.describe())
# 检查缺失值
print(df.isnull().sum())
# 删除包含缺失值的行
df.dropna(inplace=True)
# 填充缺失值
df.fillna(value=0, inplace=True)
# 转换数据类型
df['column_name'] = df['column_name'].astype('int')
# 删除重复行
df.drop_duplicates(inplace=True)
# 根据条件筛选数据
filtered_df = df[df['column_name'] > 10]
# 使用多个条件筛选数据
filtered_df = df[(df['column_name1'] > 10) & (df['column_name2'] == 'value')]
# 按某一列排序
sorted_df = df.sort_values(by='column_name', ascending=True)
# 按某一列分组并计算均值
grouped_df = df.groupby('column_name').mean()
# 合并两个 DataFrame
merged_df = pd.merge(df1, df2, on='common_column')
Pandas 在数据分析、数据清洗、数据预处理、数据可视化等方面有广泛应用。例如,在金融数据分析、市场调研、科学研究等领域,Pandas 都是非常重要的工具。
原因:NaN 值通常是由于数据缺失或数据类型不匹配导致的。
解决方法:
# 检查并处理 NaN 值
df.dropna(inplace=True) # 删除包含 NaN 的行
df.fillna(value=0, inplace=True) # 用 0 填充 NaN 值
原因:数据类型不匹配通常是由于数据导入时未正确指定数据类型或数据本身包含不一致的数据类型。
解决方法:
# 转换数据类型
df['column_name'] = df['column_name'].astype('int')
原因:数据重复通常是由于数据导入时未进行去重处理或数据本身包含重复记录。
解决方法:
# 删除重复行
df.drop_duplicates(inplace=True)
通过以上方法,你可以快速有效地清理和操作 Pandas DataFrame 中的数据。
云+社区沙龙online第6期[开源之道]
DB TALK 技术分享会
Elastic 实战工作坊
云+社区技术沙龙[第14期]
云+社区技术沙龙[第24期]
腾讯云数据库TDSQL训练营
Techo Day 第三期
Elastic Meetup Online 第三期
T-Day
领取专属 10元无门槛券
手把手带您无忧上云