首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【数据清洗】

【数据清洗】

作者头像
贺公子之数据科学与艺术
发布2025-08-29 19:11:24
发布2025-08-29 19:11:24
7500
代码可运行
举报
运行总次数:0
代码可运行

数据清洗是数据预处理中非常重要的一部分,下面是一个简单的示例代码,展示了如何进行数据清洗:

代码语言:javascript
代码运行次数:0
运行
复制
import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 查看数据缺失值情况
print(data.isnull().sum())

# 去除缺失值
data = data.dropna()

# 去除重复值
data = data.drop_duplicates()

# 数据去重后重新查看缺失值情况
print(data.isnull().sum())

# 保存清洗后的数据
data.to_csv('cleaned_data.csv', index=False)

在这段代码中,首先通过 Pandas 库读取了一个数据文件,然后使用 isnull() 方法查看数据中的缺失值情况,接着使用 dropna() 方法去除了缺失值,再使用 drop_duplicates() 方法去除了重复值。最后将清洗后的数据保存到了一个新的文件中。

下面一个包含数据的 DataFrame,并对数据进行清洗,包括去除空值和重复值:

代码语言:javascript
代码运行次数:0
运行
复制
import pandas as pd

# 创建一个包含数据的 DataFrame
data = {
    'A': [1, 2, None, 4],
    'B': ['apple', 'banana', 'carrot', ''],
    'C': [10, 20, 30, 20]
}
df = pd.DataFrame(data)

# 显示原始数据
print("原始数据:")
print(df)

# 删除包含空值的行
df = df.dropna()

# 删除重复的行
df = df.drop_duplicates()

# 重置索引
df = df.reset_index(drop=True)

# 显示清洗后的数据
print("\n清洗后的数据:")
print(df)

这段代码首先创建了一个包含数据的 DataFrame,然后删除了包含空值的行和重复的行,最后重置了索引并输出清洗后的数据。你可以根据实际需求修改和扩展这段代码来完成更复杂的数据清洗任务。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-08-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档