前段时间有不少朋友让推荐一些数据仓库的书出来,本着“如果重复三次回答同一个问题,就应该写一篇博客”的原则,在这里梳理一下数据仓库相关的资源给大家。
这里的推荐只有居士自己看过的书,至少是看过大部分的。几本书正好在身边,拍个照方便大家参考。另外,一些已经买不到的书就不再推荐了,能买到的都尚且看不完,不增加更多的心理负担。
英文名:《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling》
维度建模是大师 Ralph Kimball 所倡导的, 这本《数据仓库工具箱》是数据仓库经典书籍,特别是维度建模相关的内容非常权威,目前市面上能买到的书,很少有比这个更权威的了。
优点:
缺点:
范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解。在数据仓库的模型设计中目前一般采用第三范式。范式模型由数据仓库之父 Inmon 提倡,而这本书就是 Inmon 所写。
这本书是我看的第二本数据仓库的书,个人感受是理论比较强,刚开始看基本就是一头雾水,然后当你做了一段时间后,再回头来看这本书会有很多理论指导,比如说元数据该怎么做,模型该怎么设计,参考性很强。
这是一本数据挖掘的书,但是没关系,数据仓库本身就是和数据挖掘息息相关的,或者是说数据仓库是数据挖掘的支撑。这本书的前5章,十分值得一读,这本书讲了其它书没有深入讲的OLAP和数据立方体技术,比如说Kylin构建Cube,其实看看这本书的第五章基本就知道是怎么回事了。
所以强烈推荐看了这本书,至少是前5五章。
阿里的大数据最佳实践,基本上讲了阿里在大数据实践上的方方面面,特别是数据模型的设计和实践,目前是我看到最好的一本书,倒不是说理论多好,主要是贴近于工作,不过多解释,只管去看就行。
这本书偏向于大数据的各个组件,和前四本不同,这本书主要偏向于各种大数据系统的原理。
推荐这本书的原因就在于现在大部分互联网公司的数据仓库都是基于这一套大数据框架来的,更准确的来讲,大家其实都是先工程,后理论,因此这本书可以作为对大数据生态的一览。
这几本书都是居士看的比较多的,其中大数据之路和大数据日知录有8成以上的内容都看过,数据仓库工具箱有5成以上都看过,其余的两本有3成是认真看过的,其余的都是需要了来做参考。
另外,也推荐看一下木东居士的个人博客或者公众号,google或者百度搜木东居士即可。有一本小书推荐给大家:《数据仓库实践》,地址:http://www.mdjs.info/2018/01/01/data-warehouse/data-warehouse-in-action/。