首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据清洗

数据清洗 一般义的清洗 特殊字符 在数据清洗中最常见的就是特殊字符,一般的特殊字符可以直接替换掉如地址码中最常见的’#’,像这种直接替换为号即可。...全角半角转换 数据由于来源或采集问题,可能会有全角的数字或字母,而一般的系统都不会允许有这种问题,所以需要将这些问题在清洗步骤中处理掉。...错/别字处理 错别字问题在数据清洗中是难度比较大的一部分工作,在这部分工作中,首先要找出错别字,并建立错别字对应的正确字符串的对应关系,然后使用程序批量的完成替换 空值检测 空值是要在数据清洗中过滤掉的...清洗中常用的工具与技术 如果要做地理数据的相关处理,那么FME是应该首选工具,当然,清洗也属于数据处理的范畴。...综上,在数据清洗中,能够掌握FME与Python基本就够了,如果你还会点正则,那就基本上是完美了!就是这样,各位,节日快乐!晚安!

1.7K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    7步搞定数据清洗-Python数据清洗指南

    数据清洗是整个数据分析过程的第一步,就像做一道菜之前需要先择菜洗菜一样。数据分析师经常需要花费大量的时间来清洗数据或者转换格式,这个工作甚至会占整个数据分析流程的80%左右的时间。...在这篇文章中,我尝试简单地归纳一下用Python来做数据清洗的7步过程,供大家参考。...# 可以让你更好地了解哪些列缺失的数据更多,从而确定怎么进行下一步的数据清洗和分析操作。 DataDF.isnull().sum().sort_values(ascending=False) ?...可能会存在有标点符号掺杂/大小写不一致/空格重复出现等问题 6)消灭空值:CustomerID、Description、Country和UnitPrice都出现了NaN值,需要去掉 于是下面就开始后续的数据清洗

    4.5K20

    数据清洗经验

    断点清洗 如果你有大量的原始数据需要清洗,要一次清洗完可能需要很久,有可能是5分钟,10分钟,一小时,甚至是几天。实际当中,经常在洗到一半的时候突然崩溃了。...假设你有100万条记录,你的清洗程序在第325392条因为某些异常崩溃了,你修改了这个bug,然后重新清洗,这样的话,程序就得重新从1清洗到325391,这是在做无用功。其实可以这么做: 1....让你的清洗程序打印出来当前在清洗第几条,这样,如果崩溃了,你就能知道处理到哪条时崩溃了。 2. 让你的程序支持在断点处开始清洗,这样当重新清洗时,你就能从325392直接开始。...当所有记录都清洗结束之后,再重新清洗一遍,因为后来修改bug后的代码可能会对之前的记录的清洗带来一些变化,两次清洗保证万无一失。但总的来说,设置断点能够节省很多时间,尤其是当你在debug的时候。...把清洗日志打印到文件中 当运行清洗程序时,把清洗日志和错误提示都打印到文件当中,这样就能轻松的使用文本编辑器来查看他们了。

    1.3K40

    爬虫系列:数据清洗

    数据清洗 到目前为止,我们都没有处理过那些样式不规范的数据,要么使用的是样式规范的数据源,要么就是放弃样式不符合我们预期的数据。但在网络数据采集中,你通常无法对采集的数据样式太挑剔。...下面我们就通过工具和技术,通过改变代码的编写方式,帮你从源头控制数据凌乱的问题,并且对已经入库的数据经行清洗。 编写代码清洗数据 和编写异常处理代码一样,你应该学会编写预防型代码来处理意外情况。...我们可以定制一些规则让数据变得更规范: 剔除单字符的“单词”,除非这个单词是“a”或“i”; 剔除维基百科的引用标记(方括号包裹的数字,入1) 剔除标点符号 现在“清洗任务”列表变得越来越长,让我们把规则都移出来...@[\]^_`{|}~ 在循环体中用item.strip(string.punctuation)对内容中的所有单词进行清洗,单词两端的任何标点符号都会被去掉,但带连字符的单词(连字符在单词内部)任然会保留...本期关于数据清洗就是如上内容,在接下来的内容中我会讲解数据标准化,以及存储的数据如何清洗

    1.7K10

    Python数据清洗实践

    ——IBM数据分析 数据清洗是处理任何数据前的必备环节。在你开始工作前,你应该有能力处理数据缺失、数据不一致或异常值等数据混乱情况。...在开始做数据清洗前,需要对Numpy和Pandas库有基本的理解。 数据清洗 数据清洗名如其意,其过程为标识并修正数据集中不准确的记录,识别数据中不可靠或干扰部分,然后重建或移除这些数据。...数据清洗是数据科学中很少提及的一点,因为它没有训练神经网络或图像识别那么重要,但是数据清洗却扮演着非常重要的角色。没有它,机器学习预测模型将不及我们预期那样有效和精准。...执行上述操作的另一种方法是手动扫描/读取列,并删除对我们的结果影响不大的列。

    2.3K20

    -Pandas 清洗“脏”数据(一)

    庆幸的是,Pandas 提供功能强大的类库,不管数据处于什么状态,他可以帮助我们通过清洗数据,排序数据,最后得到清晰明了的数据。...下面我们通过使用 Pandas 提供的功能来清洗“脏”数据。 准备工作 首先,第一次使用 Pandas 之前,我们需要安装 Pandas。...data.rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’}) 保存结果 我们完成数据清洗之后...有很多方式可能造成数据集变“脏”或被破坏: 用户环境的不同、 所使用语言的差异 用户输入的差别 在这里,我介绍了 Python 用 Pandas 清洗数据最一般的方式。...更多关于数据清洗的内容可以关注知乎上的专栏“数据清洗” 知乎数据清洗- Pandas 清洗“脏”数据(一)

    3.8K70

    Python数据清洗实践

    ——IBM数据分析 数据清洗是处理任何数据前的必备环节。在你开始工作前,你应该有能力处理数据缺失、数据不一致或异常值等数据混乱情况。...在开始做数据清洗前,需要对Numpy和Pandas库有基本的理解。 数据清洗 数据清洗名如其意,其过程为标识并修正数据集中不准确的记录,识别数据中不可靠或干扰部分,然后重建或移除这些数据。...数据清洗是数据科学中很少提及的一点,因为它没有训练神经网络或图像识别那么重要,但是数据清洗却扮演着非常重要的角色。没有它,机器学习预测模型将不及我们预期那样有效和精准。...执行上述操作的另一种方法是手动扫描/读取列,并删除对我们的结果影响不大的列。

    1.9K30

    - Pandas 清洗“脏”数据(二)

    概要 了解数据 分析数据问题 清洗数据 整合代码 了解数据 在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的。...下面我们就通过手动设置列头参数来读取 csv,代码如下: import pandas as pd # 增加列头 column_names= ['id', 'name', 'age', 'weight',...我们又遇到了数据清洗最常见的问题——数据缺失。一般是因为没有收集到这些信息。我们可以咨询行业专家的意见。...典型的处理缺失数据的方法: 删:删除数据缺失的记录(数据清洗- Pandas 清洗“脏”数据(一)/[数据清洗]-Pandas 清洗“脏”数据(一)) 赝品:使用合法的初始值替换,数值类型可以使用 0,...至少用这几次介绍的处理方法,应该可以对数据做很多清洗工作。 更多关于数据清洗的内容可以关注知乎上的专栏“数据清洗” 知乎数据清洗- Pandas 清洗“脏”数据(二)

    2.1K50
    领券