Apache Kylin 介绍 一、什么是 Kylin Apche Kylin 是 Hadoop 大数据平台上的一个开源 OLAP 引擎。...Apache Kylin 也是中国人主导的,第一个 Apche 顶级开源项目,在开源社区有较大影响力。...例如 “user_id” 和 “email”。...Kylin 的任务引擎,任务引擎会根据起始时间和结束时间从 Hive 中抽取相应时间的数据,并对这部分数据做预计算处理,然后将预计算的结果封装为一个新的 Segment,并将相应的信息保存到元数据和存储引擎中...五、参考 《Apache Kylin 权威指南》 http://kylin.apache.org/cn/docs/ https://blog.csdn.net/bbbeoy/article/details
本篇文章就概念、工作机制、数据备份、优势与不足4个方面详细介绍了Apache Kylin。 Apache Kylin 简介 1. Apache kylin 是一个开源的海量数据分布式预处理引擎。...3)可通过 ODBC, JDBC,RESTful API 等接口在亚秒级的延迟内查询相 Apache Kylin 核心概念 1....Apache Kylin 工作机制 1....Apache kylin 架构如下: ? 6....Apache Kylin 元数据备份 1. 备份元数据 Kylin 将它全部的元数据(包括 cube 描述和实例、项目、倒排索引描述和实例、任务、表和字典)组织成层级文件系统的形式。
一、Apache kylin的核心概念 表(Table ):表定义在hive中,是数据立方体(Data cube)的数据源,在build cube 之前,必须同步在 kylin中。...)的连接和过滤关系。...二、Apache kylin的工作机制 Apache kylin 能提供低延迟(sub-second latency)的秘诀就是预计算,即针对一个星型拓扑结构的数据立方体,预计算多个维度组合的度量...预计算的过程在kylin中就是 Cube 的build过程,如下图: ? 当前Apache kylin构建(build)数据立方体,采用逐层算法(By Layer Cubing)。...三、Apache kylin的架构及核心组件 Apache kylin 架构如下: ?
Apache Kylin 和 Apache Doris 都是优秀的开源OLAP系统,本文将全方位地对比Kylin和Doris。...本文对Apache Kylin的理解基于近两年来在生产环境大规模地使用,运维和深度开发,我已向Kylin社区贡献了98次Commit,包含多项新功能和深度优化。...本文对Apache Doris的理解基于官方文档和论文的阅读,代码的粗浅阅读和较深入地测试。 注: 本文的对比基于Apache Kylin 2.0.0 和Apache Doris 0.9.0。...JobServer的高可用是基于Zookeeper实现的,具体可以参考Apache Kylin Job 生成和调度详解。...14 总结 本文从多方面对比了Apache Kylin和Apache Doris,有理解错误的地方欢迎指正。本文更多的是对两个系统架构和原理的客观描述,主观判断较少。
Apache Kylin在大数据领域对Cube进行了扩展,通过执行 MapReduce/Spark任务构建Cube,对业务所需的维度组合和度量进行预聚合,当查询到达时直接访问预计算聚合结果,省去对大数据的扫描和运算...如图1所示,Apache Kylin会对SQL的查询计划进行改写,把源表扫描、多表连接、指标聚合等在线计算转换成对预计算结果的读取,极大减少了在线计算和I/O读写的代价。...通过这个评分,就可以一眼对整个Apache Kylin的性能体现有一个直观认识,也可以直观地看出Cube优化的重要性和必要性。...如要优化,建议检查集群资源配置和调度。 ? 图14 MapReduce任务生命周期 寻找查询瓶颈 查询是Apache Kylin的强项,但也存在种种因素导致某些查询变慢。...图 - 18待优化查询(2) 总结 本文着重介绍了Apache Kylin中对Cube和查询进行优化的原理、工具、方案和案例,希望能够帮助使用Apache Kylin的朋友解决工作上的棘手问题。
: Hadoop 任务的XML配置文件,这些文件的作用可参考http://kylin.apache.org/docs/install/configuration.html lib: 供外面应用使用的jar...如需要清理,请遵循 http://kylin.apache.org/cn/docs/howto/howto_cleanup_storage.html。...如需要清理,请遵循 http://kylin.apache.org/cn/docs/howto/howto_backup_metadata.html. jdbc-resources:性质同上,只在使用...五、HBase表 kylin中有大量的元数据信息,包括cube的定义,星状模型的定义、job的信息、job的输出信息、维度的directory信息等等,元数据和cube都存储在hbase中,其中元数据默认存储在...如果需要清理,请咨询: http://kylin.apache.org/cn/docs/howto/howto_cleanup_storage.html ----
安装好这个工具之后,我们就可以通过superset连接kylin进行访问了。相应的安装步骤和使用,kylin在官方文档中已经说的非常清楚了,这里就不再一一赘述。...这篇文档主要将非root权限下的kylinpy和superset安装以及相关配置。 由于所有的开发工作都是通过ssh连接至服务器完成,一般都是登录到个人账号或者某个公共账号进行操作。...由于我们在前面已经将自定义路径加入环境变量PATH中,因此,这里可以直接通过easy_install和pip命令使用我们自己安装的版本,而并非/usr/bin下面的easy_install和pip,可以通过...superse初始化 关于superset的详细安装和配置信息可以参考:https://superset.incubator.apache.org/installation.html。...可以看到,目前我们已经能够通过页面对superset进行访问了: 通过第一步中创建的用户名和密码就可以登录进行操作了,目前,最新版本的superset已经支持中文了。
相关概念介绍 为了了解Kylin存储和查询的分片问题,需要先介绍两个重要概念:segment和cuboid。相信大数据行业的相关同学都不陌生。...Kylin对于每一个cuboid都会有一个唯一的id(一个cube的所有segment都有着相同的cuboid和cuboid id)。而这个id就是根据用户在定义cube时,维度列的排序来确定的。...对于每个segment都会保存cuboidShardNums和totalShards成员。...build过程中生成的region数量和大小,从而进行相应的优化。...这样关于Kylin存储和查询的分片问题就整理的差不多了,本文省略了一些Kylin在使用HBase进行存储时的一些相关细节,后续会陆续补充上来,有感兴趣的同学可以一起交流学习。
Kylin 概述 1.1 Kylin 定义 Apache Kylin(麒麟)是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由...官网:https://kylin.apache.org/cn 1.2 Kylin特点 Kylin的主要特点包括支持SQL接口、支持超大规模数据集、亚秒级响应、可伸缩性、高吞吐率、BI工具集成等。...可伸缩性和高吞吐率:单节点Kylin可实现每秒70个查询,还可以搭建Kylin的集群。 BI工具集成,Kylin可以与现有的BI工具集成,具体包括如下内容。...构建过程中会涉及多个Cuboid的创建,具体创建过程由kylin.Cube.algorithm参数决定,参数值可选 auto,layer 和 inmem, 默认值为 auto,即 Kylin 会通过采集数据动态地选择一个算法...(layer or inmem),如果用户很了解 Kylin 和自身的数据、集群,可以直接设置喜欢的算法。
Kylin的介绍 Apache Kylin是一个开源的大数据分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力(可以把Kylin定义为OLAP on Hadoop)。...Apache Kylin于2015年11月正式毕业成为Apache基金会(ASF) 顶级项目,是第一个由中国团队完整贡献到Apache的顶级项目。...Kylin拥有很好的快速查询能力和高并发处理能力,原因是kylin将高复杂度和多表连接操作转换成预计算结果的查询。 Kylin的一个主要特点之一就是 空间换时间。...kylin提供的JDBC驱动的classname为org.apache.kylin.jdbc.Driver, url前缀为jdbc:kylin:;使用jdbc接口和使用restful接口走的流程是相同的...,比如Tableau 资料参考: http://kylin.apache.org/cn/ 书籍:基于kylin构建大数据分析平台
中参数xxx=4096 也就是说当cubeid数量大于4096个时是无法进行创建的,会报error 为: 1.检查Cubeid数目 执行命令 :bin/kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader...: 根据业务的维度组合,划分出具有强依赖的组合,这些组合称之为聚合组,用来控制哪些CubeID用来组合计算 聚合组优化效果:如果有4个维度,分别为A,B,C,D,那么就会有16个cubeid,如果AB和CD...kylin的默认设置中kylin.hbase.region.cut时5G,kylin.hbase.region.count.min=1,kylin.hbase.region.count.max=500...=1 上面设置为最小为2个分区,每个分区大小为1G,最多设置100个region分区 参考资料 : http://kylin.apache.org/blog/2016/02/18/new-aggregation-group.../ http://kylin.apache.org/docs/howto/howto_optimize_cubes.html Apache Kylin 权威指南
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。...从官网的介绍来看Kylin是一个OLAP的数据查询引擎,其特点就是快。...公司最近准备引入Kylin做数据分析,原来也听说过 但一直没有接触,现在正好可以验证下Kylin是否是传说中那么NB,今天我们先来看看如何安装部署Kylin。...然后去Kylin官网下载对应的kylin版本,链接如下: http://kylin.apache.org/cn/download/ 下载的具体版本是: apache-kylin-2.0.0-bin-hbase1x.tar.gz...启动成功之后,访问地址:http://hostname:7070/kylin (kylin的启动过程感觉有点慢,差不多1分钟之后,在访问这个地址基本能生效) 并输入默认的用户名和密码:ADMIN / KYLIN
我们的旧数据仓库由当时最流行的组件组成,包括 Apache Hive、MySQL、Elasticsearch 和 PostgreSQL。...然后,数据将从 Kafka 传递到 Apache Doris,后者作为存储和计算引擎。...这就是 Apache Doris 在我们的数据仓库中取代 Hive、Elasticsearch 和 PostgreSQL 角色的方式。这样的改造为我们节省了大量的开发和维护的精力。...用户细分 之前:基于元数据创建用户分段任务后,相关用户ID 会写入 PostgreSQL 配置文件列表和 MySQL 任务列表中。...然后 PostgreSQL 会为下游操作平台提供用户组数据包。 Elasticsearch 和 PostgreSQL 中的表不可重用,使得该架构成本效益低下。
从2016年开始,美团到店餐饮技术团队就开始使用Apache Kylin作为OLAP引擎,但是随着业务的高速发展,在构建和查询层面都出现了效率问题。...Apache Kylin是一个基于Hadoop大数据平台打造的开源OLAP引擎,它采用了多维立方体预计算技术,利用空间换时间的方法,将查询速度提升至亚秒级别,极大地提高了数据分析的效率,并带来了便捷、灵活的查询功能...成果展示 资源整体情况 擎天现有20+的Kylin任务,经过半年时间持续优化迭代,对比Kylin资源队列月均CU使用量和Pending任务CU使用量,在同等任务下资源消耗已明显降低。如下图所示: ?...展望 Apache Kylin在2015年11月正式成为Apache基金会的顶级项目。...从开源到成为Apache顶级项目,只花了13个月的时间,而且它也是第一个由中国团队完整贡献到Apache的顶级项目。
网上没有找到Apache Kylin 2.3相关的样子,只好参考Apache Kylin 1.x 相关例子,但是运行报错。只好自己慢慢排查,下面做个记录。...========= 2018-05-31 09:17:44,366 ERROR [http-bio-7070-exec-1] controller.BasicController:61 : org.apache.kylin.rest.exception.InternalErrorException...'2013-12-01' and '2013-12-31' and kylin_sales.region = 'Shanghai' LIMIT 50000" at org.apache.kylin.rest.service.QueryService.doQueryWithCache...(QueryService.java:474) at org.apache.kylin.rest.service.QueryService.doQueryWithCache(QueryService.java...:390) at org.apache.kylin.rest.controller.QueryController.query(QueryController.java:86)
opt/maven/repo 1.2 安装Git [root@compile maven]# yum -y install git 1.3 安装nodejs 注意:nodejs版本不能太高,11即可,否则和gulp...(); Stopwatch sw = Stopwatch.createUnstarted(); # 9.修改kylin/core-cube/src/main/java/org/apache/kylin...(); Stopwatch sw = Stopwatch.createUnstarted(); # 14.修改kylin/core-cube/src/main/java/org/apache/kylin...]$ tar -zxvf apache-kylin-2.6.6-bin.tar.gz [admin@hdp01 apps]$ mv apache-kylin-2.6.6-bin kylin-2.6.6...的Mode和Cube: ?
扩展阅读: Apache Kylin 概览 - 简书 可能是全网最深度的 Apache Kylin 查询剖析 - 简书 一、Overview 1.1、通过 Kylin 查询 其中 olap_model_...{ "type": "custom", "name": "DEFAULT", "factory": "org.apache.kylin.query.schema.OLAPSchemaFactory...}, { name: 'CONCAT', className: 'org.apache.kylin.query.udf.ConcatUDF...' } ] } ] } 最主要的是指定了: schema factory class: org.apache.kylin.query.schema.OLAPSchemaFactory...的时候,指定了 schema facotry 为 org.apache.kylin.query.schema.OLAPSchemaFactory , 即在 validate 的过程中会使用 OLAPSchemaFactory
) at org.apache.hadoop.mapreduce.Job.getStatus(Job.java:329) at org.apache.kylin.engine.mr.common.HadoopJobStatusChecker.checkStatus...(HadoopJobStatusChecker.java:38) at org.apache.kylin.engine.mr.common.MapReduceExecutable.doWork...:162) at org.apache.kylin.job.execution.DefaultChainedExecutable.doWork(DefaultChainedExecutable.java...:67) at org.apache.kylin.job.execution.AbstractExecutable.execute(AbstractExecutable.java:162...) at org.apache.kylin.job.impl.threadpool.DefaultScheduler$JobRunner.run(DefaultScheduler.java
Apache Kylin是第一个来自中国的Apache顶级开源项目,连续两年获得了InfoWorld最佳开源大数据工具奖,2016年更是与Google TensorFlow一起获得该奖。...因此在2013年我们评估了七八种商业的和开源的技术方案之后,最后决定自己做。 我们希望把数据仓库的能力在Hadoop之上构建起来,这也就诞生了Kylin。...Apache Kylin的架构 我们会要求把数据放在Hadoop上,用Hive呈现出来。在Kylin里面定义整个元数据,在一个企业里面不是工程师去做,而应该是BI人员或者分析师去做。...如果你想把Kylin这个实时的东西拿去做实时监控和监控告警并不一定合适,因为那个是毫秒级别的,它是机器处理的。Kylin是给人用的,人去看一个报表或者查一个东西的时候,对于延迟的容忍性比较高。...声明:"Apache and Apache Kylin are either registered trademarks or trademarks of The Apache Software Foundation