今天需要硬塞点干货,本人也算是搞点数据工作,来聊聊看
先聊点最简单的,我们常用数据架构都是基于基础数据库选型出发,大家都知道,最少百并发内的从MySQL开始,Apache或者Nginx亦或tomcat都是基础配置,一旦需要用到缓存,就要开始涉及到redis和mongo的范围,生产者消费者模式常用Redis作为基础,构建堆栈或者队列,或者去重都方便,关系型的选型从MongoDB出发,而且mongodb最厉害的地方在可以分布式化,想到之前春节之前看初建的系统满了,直接分片,加速+变分布式,暂缓解决,另外开了平衡,从平衡角度出发,速度也大大提升。再从灾变的角度出发,多设置一些副本,就可以大大保证系统数据的可靠性,另外从这个角度再提升其实就是机器的问题。这在六七万以内是可以cover的,如果需要百万到到亿级别,就需要到更高层面
更高的存储层面,HBASE算是通用数据方案,bigtable类似,针对不同的文件系统不一样,百度的tera也OK,针对不同的场景
更高的计算层面,Hadoop的计算能力依赖调度和机器数量的问题,当然不同类型的机器对上述存储和计算的偏向不一样,有的需要cpu密集型,有的需要存储。未来因为我们系统多数在硬盘和存储的瓶颈基础上,还可以放一部分CPU计算能力出来混部,搭建自己Hadoop系统
这里面还有个盲点,关于数据仓储,据说是数据分析人士的利器,能统一接口,提升计算速度。
领取专属 10元无门槛券
私享最新 技术干货