我是一名ETL开发人员,使用不同的工具完成ETL任务。在我们的所有项目中都出现了同样的问题:在构建数据仓库之前和为数据移动构建ETL之前,数据概要分析的重要性。通常我会做数据分析(比如发现坏数据、数据异常、计数、不同的值等)。使用纯SQL是因为ETL工具没有为这些提供一个很好的替代方案(我们的工具中有一些数据质量组件,但它们并不是那么复杂)。一种选择是使用R programming language或SPSS Modeler等工具来实现这种Exploratory Data Analysis。但是,如果有数百万行的数据,这些类型的工具通常是不可用的,或者不符合条件。
如何使用SQL进行这种分析?有没有可用的助手脚本?如何在数据清理和ETL之前进行这种探索性数据分析?
发布于 2014-05-08 21:46:36
为此,我找到了一个很好的工具:Datacleaner。这似乎完成了我想在EDA过程中对数据所做的大部分事情。
发布于 2012-10-11 18:14:05
将数据加载到某个分段系统中,并使用SSIS中的数据探查器任务。使用此链接http://gowdhamand.wordpress.com/2012/07/27/data-profiling-task-in-ssis/验证如何进行数据分析。希望这能有所帮助。
发布于 2021-11-07 04:50:38
USe是一种探索性的数据分析工具,可以帮助分析和分析数据
https://stackoverflow.com/questions/12835572
复制相似问题