随着互联网、移动互联网、物联网和各种智能终端的快速发展,各种数据无时无刻地生成,新数据的产生成大爆炸趋势,如此大数据量的实时查询和分析能力已然成为企业报表分析系统的重要考量指标。
一、现状分析
大数据的到来,给目前传统的分析系统带来了巨大挑战:
1、数据越来越多,超越了 I/O 极限。
众所周知,I/O 能力一直都是传统数据仓库系统的瓶颈。大数据的到来,更加重了 I/O 瓶颈问题。
2、分析查询性能低下。
查询时间以数小时甚至数天计,有的分析算法甚至根本无法运行。
3、传统分析系统都是基于数据概要的统计分析,无法满足深度挖掘分析要求。
尚待挖掘的有价值的业务规律,往往隐藏在数据细节中。传统基于数据概要的分析方法,阻碍了新的业务规律的发现,大大降低了业务数据的分析价值。
4、传统分析系统采用的批处理方式进行加载和汇总,无法满足时效性要求。
需要分析的数据量越来越多,要汇总的业务也越来越多,留给数据批量加载和汇总的处理时间窗口越来越短,甚至根本无法完成。同时,批量加载方式使得数据的时效性得不到保障,重要的商业机会稍纵即逝。
实时大数据平台六大特性
PetaBase-s实时大数据平台基于开源Hadoop框架开发,融合MPP、SQL on Hadoop、流处理等大数据技术,支持海量数据的高效储存和统一管理,具有如下特点:
l 支持批流融合的混合计算场景
集成MapReduce、Spark、impala等多种计算框架,利用YARN资源管理做统一管理,可在海量数据集上同时进行离线计算和流式处理。满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。
l 企业级高可靠与高可用
可靠保障:HDFS、HBase、YARN、Kafka等全组件支持HA,确保生产业务的连续性。
认证安全:基于用户和角色的认证体系,支持kerberos安全协议。
访问控制:支持基于角色、对象(库、表、列、行)的细粒度访问权限控制,保障用户数据安全。
l 丰富的数据访问接口
PetaBase-s提供多种应用程序接口,包括JDBC、ODBC、CLI、Thrift等。PetaBase-s除了兼容SQL-99标准,还支持大部分SQL-2003标准。PetaBase-s的SQL语法基本同Hive SQL兼容,语法上同其它数据库SQL语法大体一致,其它数据库的从业人员可以平滑的过渡到PetaBase-s上进行数据分析工作。
l 灵活的数据采集方式
PetaBase-s提供了一个产品化的实时流数据集成加工套件。这个工具提供丰富的通信协议接口 ,最大化地简化采集作业,对实时流数据的数据集成和数据加工处理可快速实施,无需写代码,通过可视化配置执行流处理作业。PetaBase-s还提供了JDBC/ODBC接口,能支持几乎所有的通用ETL工具产品。
l 统一的可视化运维工具
PetaBase-s提供基于Web的控制台界面,以监控仪表盘形式,对PetaBase-s数据库信息、集群CPU、内存、磁盘空间、数据库会话以及节点状态进行实时监控。
PetaBase-s Web控制台提供Hadoop集群及PetaBase-s集群节点管理功能,可以集中的对数据库集群进行整体控制,资源监控,也可以对单个节点进行管理,了解各节点资源使用情况,进行会话管理等。
PetaBase-s Web控制台提供类PL/SQL Developer IDE的数据库管理功能,可以在Web界面上完成在命令行界面进行的大部分操作,还提供一些额外的高级特性,包括建库、建表、SQL查询编辑器、执行计划、导入、导出、数据复制等。
l 高度集成的工程化产品
PetaBase-s具有更高的软件集成度,集成了Hadoop生态系统的多种基础软件,无需额外安装。这些集成化的组件和功能,从整体上节省软件开销,降低使用和运维门槛,方便、有效的保证大数据库系统的落地部署,工程化实施。
PetaBase-s 实时大数据平台的主要新功能一览:
领取专属 10元无门槛券
私享最新 技术干货