首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据导入与预处理-第6章-03数据规约

数据规约: 对于中型或小型的数据集而言,通过前面学习的预处理方式已经足以应对,但这些方式并不适合大型数据集。由于大型数据集一般存在数量庞大、属性多且冗余、结构复杂等特点,直接被应用可能会耗费大量的分析或挖掘时间,此时便需要用到数据规约。 数据规约类似数据集的压缩,它的作用主要是从原有数据集中获得一个精简的数据集,这样可以在降低数据规模的基础上,保留了原有数据集的完整特性。在使用精简的数据集进行分析或挖掘时,不仅可以提高工作效率,还可以保证分析或挖掘的结果与使用原有数据集获得的结果基本相同。 要完成数据规约这一过程,可采用多种手段,包括维度规约、数量规约和数据压缩。

02
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    客服中心优化案例分析(附下载)—献给在案例解决方面缺乏经验的初学者

    介绍 笔者写这篇文章主要是针对那些在案例解决方面缺乏自信的初学者,这将成为在面试中被拒的一个重要原因。如果你还在读这篇文章的话,笔者相信,你肯定已经做好了和我一起进入下一阶段的准备! 为了便于理解,第一阶段我设置得比较简单,目的就是吸引大家持续跟进,能够逻辑清晰地理解客服中心的工作流程。 然而,这只是把客服中心的真实工作简化后的结果。在本文中,我将更进一步,向大家介绍一下在客服中心优化案例问题。我已经介绍过R语言的编码问题,相信这篇文章将对R语言用户更加有帮助。不过,即使你不了解R 语言,你也可以用Exc

    06

    每个数据科学专家都应该知道的六个概率分布

    摘要:概率分布在许多领域都很常见,包括保险、物理、工程、计算机科学甚至社会科学,如心理学和医学。它易于应用,并应用很广泛。本文重点介绍了日常生活中经常能遇到的六个重要分布,并解释了它们的应用。 介绍 假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而没有包含对应的学生。 他又犯了另一个错误,在匆忙中跳过了几项,但我们却不知道丢了谁的成绩。我们来看看如何来解决这个问题

    05
    领券