大数据通用处理平台可以分为四层
一、数据采集层(采集业务库、服务日志等)
sqoop:hadoop和关系型数据库之间转换数据
Flume:分布式的高可用数据收集、聚集和移动工具。通常用于从其他系统收集数据,如web服务器产生的日志,通过Flume将日志写入hadoop生态圈的组件中
Kafka:消息中间件
DataX:是一个异构数据源离线同步工具,致力于实现包括关系型数据库(Mysql、Oracle等)、Hdfs、Hive、HBASE等各种异构数据源之间稳定高效的数据同步
二、存储层
HBASE:一个分布式的、面向列的开源数据库
Elasticsearch:一个基于Lucene的搜索服务器。他提供了一个分布式多用户能力的全文搜索引擎,基于Restful web接口
HDFS:Hadoop的分布式文件系统
三:计算层
Hive:一个构建在Hadoop上的数据仓库框架。Hive的设计目标是让精通sql技能但编程技能相对较弱的分析师对存放在Hadoop上的大规模数据执行查询
Spark:Spark是专为大规模数据处理而设计的快速通用计算引擎
Storm:分布式流处理框架
Flink:一个分布式处理引擎,用于对无界和有界数据流进行有状态计算
Impala:提供对HDFS、HBASE数据的高性能、低延迟的交互式SQL查询功能
Kylin:是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力。
Druid:是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统,提供低延时(实时)的数据接入,灵活的数据探索以及高速的数据聚合(存储和查询)
四:服务层
数据可视化:BI系统
数据挖掘:从海量数据中通过算法搜索隐藏于其中信息的过程
推荐系统:根据用户喜好把合适的Item推荐给合适的User
机器学习:机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法
领取专属 10元无门槛券
私享最新 技术干货